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Vorwort zur 5. Auflage 


Die empirisch ausgerichteten Sozialwissenschaften verlangen von ihren Ab- 
solventen einen sicheren Umgang mit den Methoden der Datenerhebung 
und Datenanalyse. Auch im Studium der Politikwissenschaft und der So- 
ziologie spielt die Beschäftigung mit den Techniken der empirischen Sozi- 
alforschung und der Statistik eine wichtige Rolle. Die Anwendung statisti- 
scher Methoden wurde sicher nicht zuletzt durch die rasante Entwicklung 
leistungsfähiger Personalcomputer und einfach bedienbarer Statistikpro- 
gramme begünstigt. Grundlegende Statistikkenntnisse sind jedoch nicht 
nur bei eigenen Analysen unabdingbar. Ein erheblicher Teil der sozialwis- 
senschaftlichen Literatur kann ohne diese Kenntnisse nicht mehr nachvoll- 
zogen werden, wie man, um nur zwei Beispiele zu nennen, an den Artikeln 
in der Politischen Vierteljahresschrift oder der Kölner Zeitschrift für So- 
ziologie und Sozialpsychologie nachvollziehen kann. Nicht zuletzt stellen 
Statistikkenntnisse — und die Beherrschung entsprechender Software — ei- 
ne Schlüsselqualifikation für den Arbeitsmarkt dar. 


Das Buch ist aus einem Manuskript entstanden, das wir für die Teilneh- 
merinnen und Teilnehmer unserer Kurse „Finführung in die Methoden der 
empirischen Sozialforschung und Statistik“ verfasst haben. Vom Umfang 
und Inhalt her ist das Buch für einen Kurs von vier Semesterwochenstun- 
den konzipiert. Ziel ist die Vermittlung grundlegender Kenntnisse in den 
Methoden der Datenerhebung und der Statistik, die eine eigenständige 
Beschäftigung mit weiterführenden Methoden ermöglicht. Mathematische 
Vorkenntnisse werden nicht vorausgesetzt. 


Das Buch gliedert sich in die Teile Methodenlehre (Kapitel 1- 4), Deskrip- 
tive Statistik (Kapitel 5 — 8) und Inferenzstatistik (Kapitel 9 - 12). 


Methodenlehre 


In Kapitel 1 werden wissenschaftstheoretische Grundlagen erläutert. Die 
Wahl eines geeigneten Forschungsdesigns, Kapitel 2, steht am Beginn einer 
Untersuchung. In Kapitel 3, Messen, geht es um die Frage, was unter einer 
Messung verstanden wird, welche Gütekriterien an eine Messung angelegt 
werden können und wie man mehrere Messungen zu einem neuen Mess- 
instrument zusammenfassen kann. In den Sozialwissenschaften dominiert 
nach wie vor die Befragung, der aus diesem Grunde der zentrale Platz in 
Kapitel 4, Erhebungsmethoden, eingeräumt wurde. 


viii 


Statistik 


Die Statistik läßt sich allgemein in einen deskriptiven und einen inferenz- 
statistischen Teil gliedern. Mit deskriptiven Statistiken werden vorliegende 
Daten beschrieben. Die Inferenzstatistik zielt darauf ab, mit Daten einer 
Auswahl (Stichprobe) auf eine größere Gesamtheit zu schließen. 


Den deskriptiven Teil beginnen wir mit einem Kapitel zu Tabellen und 
Graphiken (Kapitel 5). Mit Mittel- und Streuungswerten (Kapitel 6) wer- 
den Verteilungen von Merkmalen charakterisiert. Die Stärke der Beziehung 
zwischen zwei Merkmalen kann mit Zusammenhangsmaßen (Kapitel 7) 
ausgedrückt werden, während die lineare Einfachregression (Kapitel 8) 
es ermöglicht, die Größe des (linearen) Einflusses eines Merkmals auf ein 
anderes zu berechnen. 


Den Auftakt zum inferenzstatistischen Teil bildet Kapitel 9, in dem wir 
Möglichkeiten darstellen, per Auswahlverfahren Stichproben zu ziehen, die 
Aussagen über eine Grundgesamtheit erlauben. Grundlage solcher Schlüs- 
se sind Wahrscheinlichkeitsverteilungen (Kapitel 10). Mit Konfidenzinter- 
vallen, Kapiteln 11, schätzen wir Parameter der Grundgesamtheit auf Ba- 
sis einer Stichprobe. Testverfahren, Kapitel 12, dienen dazu, Hypothesen 
über eine Grundgesamtheit an einer einzigen Stichprobe zu testen. 


In Anhang A finden sich die für die Inferenzstatistik notwendigen z-, t- 
und x’-Tabellen. In Anhang B bieten wir die Lösungen zu den Übungs- 
aufgaben, die sich am Ende jedes Kapitels befinden. Diese Aufgaben sind 
dazu gedacht, sich über die wichtigsten Punkte jedes Kapitels nochmals 
Klarheit zu verschaffen. Ein Register soll helfen, schnelle Antworten auf 
konkrete Fragen zu bekommen. Schließlich bieten wir mit der Online- 
Unterstützung zahlreiche weitere Informationen an, die von den auf Seite x 
genannten WWW -Servern bezogen werden können. 


Das Buch ist so aufgebaut, dass alle Berechnungen von Hand bzw. mit ei- 
nem Taschenrechner nachvollzogen werden können. Unsere Erfahrung mit 
Statistikkursen und Einführungen in SPSS und Stata zeigt, dass Probleme 
weniger in der Bedienung der Software (vgl. zu SPSS: Brosius 2006; zu Sta- 
ta: Kohler und Kreuter 2008) als vielmehr im Verständnis der statistischen 
Verfahren bestehen. Für diejenigen, die die Beispiele mit SPSS oder Stata 
nachrechnen wollen, haben wir die Datensätze auf der Internetseite des 
Buches zur Verfügung gestellt. 


Das Buch wurde mit dem Textsatzsystem KIEX2; gesetzt, die Gra- 
phiken wurden weitgehend mit dem Programm TDA von Götz Rohwer 
und Ulrich Pötter — eigentlich ein Programm zur Ereignisdatenanaly- 
se — erzeugt. Außerdem haben wir die Statistik-Lernprogramme GSTAT 
und GSTAT2 von Fred Böker verwandt, mit denen die Grundlagen der 
Inferenzstatistik auf einfache Art und Weise nachvollzogen werden kön- 
nen. Alle genannten Programme sind frei erhältliche Software: BTEX 2e 
ist u.a. auf der Seite http://www.dante.de erhältlich, TDA wird un- 
ter http: //www.stat.ruhr-uni-bochum.de/tda.html zur Verfügung ge- 
stellt. GSTAT und GSTAT2 finden sich im Internet unter http: //www.stat- 
oek.wiso.uni-goettingen.de/user/fred/; die dazugehörige Literatur 
kann preisgünstig über den Buchhandel bezogen werden (vgl. Böker 1993, 
1998). 


In der aktuellen Auflage haben wir den Titel geändert. Wir tragen damit 
der Tatsache Rechnung, dass das Buch gleichermaßen für Lehrveranstal- 
tungen in der Politikwissenschaft und der Soziologie verwendet wird. Die 
inhaltlichen Beispiele stammen vorwiegend aus der politischen Soziologie, 
wodurch der Anwendungsbezug für Studierende beider Fächer gegeben 
ist. 


Bei den Teilnehmerinnen und Teilnehmern unserer Statistik-Veranstal- 
tungen an den Universitäten Trier, Mainz, Jena und Siegen möchten wir 
uns für deren konstruktive Hinweise bedanken. Das Buch hat von den de- 
taillierten Anmerkungen durch Hans-Jürgen Andreß zur ersten Auflage 
wesentlich profitiert. Hilfe bei der Überarbeitung der verschiedenen Auf- 
lagen leisteten Matthias Pflume, Ulrich Teusch, Martina Eltges, Andrea 
Schulze, Thomas Lenz und Nicole Zillien. 


Es gibt Menschen, die gerne im Duden schmökern: Matthias P. Heck, 
Mainz, hat eine Verwendung der neuen deutschen Rechtschreibung schon 
bei der ersten Auflage angemahnt und diese bei der aktuellen Auflage dann 
auch tatkräftig unterstützt. 


Trier, Mai 2009 


Cornelia Weins Uwe Gehring 


Online-Unterstützung 


Auf den unten genannten WWW -Seiten bieten wir Materialien und ergän- 
zende Informationen an. Unter anderem findet sich dort eine Formelsamm- 
lung inklusive der Tabellen aus Anhang A. Die Tabellen, Abbildungen und 
Formeln dieses Buches können in stark vergrößerter Form (zum Beispiel 
für Folien) kopiert werden. Für diejenigen, die die Beispiele mit Hilfe von 
SPSS, SAS oder Stata nachrechnen wollen, stehen Datensätze bereit. Schließ- 
lich verweisen „Links“ auf weitere Informationen im Netz. 


http: //www.grundkurs-statistik.de 
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1.1 Wissenschaftstheorien 


Es mag vielleicht verwundern, dass ein Buch zur empirischen Sozialfor- 
schung und Statistik mit einem Kapitel zur Wissenschaftstheorie beginnt. 
Da die Vorgehensweise einer Untersuchung jedoch vom wissenschaftstheo- 
retischen Blickwinkel geprägt wird, werden wir dieses Kapitel vor allem 
dazu nutzen, eine sehr bekannte wissenschaftstheoretische Position, den 
Kritischen Rationalismus, zu skizzieren. Grundlegende Einführungen in 
die Wissenschaftstheorie bieten Poser (2001), Ritsert (2003) und Chal- 
mers (2007). 


Zunächst dazu, was Wissenschaft überhaupt ist. Mit Hilfe von Wissen- 
schaft versuchen Menschen, ihre Erkenntnis über die Realität zu erweitern 
(vgl. Patzelt 2007, 67). Was passiert bei der Photosynthese, wie entstehen 
Sterne, was sind die Ursachen gesellschaftlicher Ungleichheit und welche 
Gründe sind ausschlaggebend für die Wahl einer bestimmten Partei? Wis- 
senschaftliche Erkenntnisgewinnung unterscheidet sich dabei nicht prin- 
zipiell davon, wie man im Alltagsleben Wissen erwirbt. Folgert man aus 
der Beobachtung, dass das morgendliche Frühstücksei immer dann hart 
wird, wenn man es zehn Minuten lang kocht, dass alle Eier nach einem 
zehnminütigen Kochvorgang hart sind, so hat man sein Wissen auf die 
gleiche Art und Weise (nämlich durch Verallgemeinerung) erweitert wie 
der Wissenschaftler, der mehrmals nach Zugabe einer Substanz zu einer 
anderen die gleiche chemische Reaktion beobachtet und daraus ableitet, 
dass diese Reaktion immer stattfindet. Im Gegensatz zum Alltagswissen 
zeichnet sich Wissenschaft jedoch durch einen höheren Abstraktionsgrad, 
ein systematischeres Vorgehen und vor allem die kritische Überprüfung 
der gewonnenen Erkenntnisse aus. Leider ist es jedoch — wie wir später 
noch sehen werden — auch mit Hilfe von Wissenschaft nicht möglich zu 
überprüfen, ob die gewonnenen Frkenntnisse wahr sind. 


U. W. Gehring, C. Weins, Grundkurs Statistik für Politologen und Soziologen, 
DOI 10.1007/978-3-531-91879-2_1, 
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2 Wissenschaftstheoretische Grundlagen 


Wissenschaftstheorien (der Plural zeigt schon an, dass es mehrere gibt) 
sind Aussagenbündel darüber, was Wissenschaft ist und wie diese vorzu- 
gehen hat. Sie sind also noch keine Theorien über einen Ausschnitt der 
Realität (also z.B. die Sternentstehung oder das Wahlverhalten), sondern 
Theorien über Theorien, die auch als Metatheorien bezeichnet werden. 
Wissenschaftstheorien bestimmen also, wie die eigentlich interessierende 
Theorie über die Realität auszusehen hat. Sie beschäftigen sich mit Fra- 
gen wie: Welche Aussagen sind in Theorien zulässig, welche Methoden 
werden angewendet, welche Ziele verfolgt Wissenschaft? Sind normative 
(wertende) Aussagen in der Wissenschaft erlaubt oder nicht? Und: Welche 
Rolle spielen Werte in der Wissenschaft. Theorien treffen dagegen Aussa- 
gen über einen Ausschnitt der Realität, eine Theorie des Wählerverhal- 
tens also über das Wahlverhalten, wie es in Abbildung 1.1 zum Ausdruck 
kommt. 


Abbildung 1.1: Der Status von Theorien 


Wissenschaftstheorien Aussagen über Theorien 
(z.B. Kritischer Rationalismus) 


Theorien Aussagen über die Realität 
(z.B. Theorie des Wählerverhaltens) 


- 


< Realität > z.B. Wahlverhalten 


In der deutschen Politikwissenschaft wurde lange Zeit eine Unterschei- 
dung der wissenschaftstheoretischen Positionen in normativ-ontologisch, 
empirisch-analytisch und kritisch-dialektisch vorgenommen (vgl. zur Ein- 
führung Druwe 1994, 57-74). Diese Ansätze unterscheiden sich vor allem 
in Bezug auf den Erkenntnisgegenstand (Was soll erkannt und erklärt wer- 
den?) und die Erkenntnisquelle (Empirie oder Vernunft?). Die normativ- 
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ontologische Wissenschaft versucht, das Wesen ihres Gegenstandes, also 
z.B. des Staates oder der Gesellschaft, zu erfassen. Ziel der Ontologie 
ist es, das Wesen, d.h. den Idealzustand eines Gegenstandes, zu erken- 
nen und daraus Handlungsanleitungen abzuleiten. Im Vordergrund steht 
das Nachdenken über Politik mittels philosophischer Reflexionen, wozu 
vor allem die Hermeneutik und die Phänomenologie dienen. Die kritisch- 
dialektische Wissenschaft stellt dagegen die Totalität der Gesellschaft und 
die Emanzipation des Menschen aus Abhängigkeiten in den Vordergrund. 
Ziel ist es, mittels dialektischer, aber auch hermeneutischer und empiri- 
scher Methoden, Herrschaftsverhältnisse offenzulegen und Gesellschafts- 
kritik zu üben. Hierzu zählt die kritische Theorie von Adorno und Ha- 
bermas. Die empirisch-analytische Wissenschaft versucht demgegenüber, 
aufgrund von beobachtbarer (= empirischer) Realität Gesetzmäßigkeiten 
sozialen Handelns zu erkennen. Ihr Ziel ist die Beschreibung, Erklärung 
und Prognose sozialer Tatbestände mit den Techniken der empirischen So- 
zialforschung. Zu diesem Ansatz gehören z.B. der Positivismus und der 
Kritische Rationalismus (siehe Kapitel 1.2). 


Diese aus der Politikwissenschaft stammende Einteilung wissenschafts- 
theoretischer Ansätze sollte allerdings lediglich als grobes Raster ange- 
sehen werden. Die Klassifikation der Ansätze ist allein deshalb problema- 
tisch, weil ihre Einteilung nach Kriterien erfolgt, die auf unterschiedlichen 
Ebenen angesiedelt sind. Ontologische und kritisch-dialektische Ansätze 
werden nach dem Ziel von Wissenschaft definiert, empirisch-analytische 
nach der Methode. Bedeutsame wissenschaftstheoretische Standpunkte, 
wie etwa der Konstruktivismus (vgl. Ritsert 2003, Kapitel 7), werden zu- 
dem nicht erfasst. 


Die Unterschiede zwischen verschiedenen wissenschaftstheoretischen 
Standpunkten kristallisierten sich im 20. Jahrhundert in der Wertur- 
teilsdebatte und im Positivismusstreit heraus (vgl. Ritsert 2003, 65-140). 
Im Werturteilsstreit wurde im Verein für Socialpolitik vor allem um die 
Frage gestritten, welche Rolle Werte innerhalb der Wissenschaft spielen. 
Max Weber vertrat in dieser Auseinandersetzung das Wertfreiheitspostu- 
lat, die Forderung der Trennung von Werturteilen und wissenschaftlichen 
Aussagen. Im Positivismusstreit wurde die Auseinandersetzung zwischen 
Karl Popper und Hans Albert als Vertretern des kritischen Rationalis- 
mus auf der einen Seite und Theodor Adorno und Jürgen Habermas als 
Vertretern der kritischen Theorie auf der anderen Seite geführt, wobei 
die Differenzen nicht einfach bestimmbar sind. Im Kern ging es auch 
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hier um die Rolle von Werten in der Wissenschaft und die Aufgabe von 
Wissenschaft. Wissenschaftliche Kritik ist für Vertreter der kritischen 
Theorie immer auch Gesellschaftskritik. 


1.2 Das Forschungsprogramm des Kritischen 
Rationalismus 


Der Kritische Rationalismus ist ein von Karl Raimund Popper begründe- 
tes Forschungsprogramm (vgl. Popper 1971). Der zentrale wissenschafts- 
theoretische Beitrag besteht in der Aufgabe des Rechtfertigungsgedankens 
von Theorien zugunsten des Falsifikationsprinzips. Mit Rechtfertigungs- 
gedanke ist der Versuch gemeint, Theorien durch ihren Wahrheitsgehalt 
zu bestätigen. Wahrheit bedeutet dabei nichts anderes als die Überein- 
stimmung mit der Realität. Wir werden die Popper’sche Wende in der 
Wissenschaftstheorie ausgehend von der Struktur einer wissenschaftlichen 
Erklärung erläutern. 


1.2.1 Die Struktur einer wissenschaftlichen Erklärung 


Ein Ereignis zu erklären heißt, dass wir es aus Gesetzen und Randbedin- 
gungen deduktiv ableiten. Das von Popper gewählte Beispiel zur Illustra- 
tion einer wissenschaftlichen Erklärung ist ein Faden, der reißt. Kausal 
ist das Reißen des Fadens erklärt, wenn man weiß, dass der Faden eine 
Reißfestigkeit von 1kg besitzt, aber mit einem Gewicht von 2kg belastet 
wurde. Die Erklärung beinhaltet ein Gesetz („Jedesmal, wenn ein Faden 
mit einer Last von einer gewissen Mindestgröße belastet wird, zerreißt 
er“) und Randbedingungen („Für diesen Faden hier beträgt diese Größe 
1 kg“ und „Das an diesen Faden angehängte Gewicht ist ein 2-kg-Gewicht“) 
(Popper 1971, 31 £.). 


Weil durch logische Ableitung (deduktiv) von einem Gesetz und den Rand- 
bedingungen auf das zu erklärende Ereignis (das Reißen des Fadens) ge- 
schlossen wird, heißt dieses Modell deduktiv-nomologische Erklärung. Die 
Struktur dieser Erklärung wurde von Hempel und Oppenheim (1948) her- 
ausgearbeitet, weshalb diese auch als H-O-Schema bezeichnet wird (vgl. 
Opp 2005, 46-52). 
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Tabelle 1.1: Deduktiv-nomologische Erklärung 


Gesetz Randbedingung Zu erklärende Beobachtung 
Alle Rotdrosseln Vogel X ist eine Vogel X wandert 
wandern Rotdrossel 
Alle Arbeiter Person Y ist Arbeiter || Person Y 
wählen SPD wählt die SPD 
N 
Explanans Explanandum 
Prämissen Konklusion 


Eine deduktiv-nomologische Erklärung besteht also aus mindestens einem 
Gesetz, mindestens einer Randbedingung und einer Beobachtung, die er- 
klärt werden soll (zu erklärendes Ereignis). Gesetze sind deterministische, 
räumlich und zeitlich unbegrenzte Aussagen. Deterministisch bedeutet, 
dass Gesetze als All-Aussagen formuliert werden können. Allen Elemen- 
ten der interessierenden Menge wird eine Eigenschaft zugeschrieben. Ge- 
setze und Randbedingungen werden auch als Explanans oder Prämissen 
bezeichnet, der zu erklärende Sachverhalt als Explanandum oder Konklu- 
sion. Anhand der beiden Beispiele in Tabelle 1.1 kann das Prinzip ver- 
deutlicht werden. 


Im ersten Beispiel möchten wir erklären, warum ein bestimmter Vogel 
im Winter die südlichen Gefilde bevorzugt. Beispielsweise könnten wir 
den Vogel in unserem Garten als Rotdrossel identifizieren und uns noch 
dunkel aus dem Biologieunterricht daran erinnern, dass alle Rotdrosseln 
Zugvögel sind. Der beobachtete Vogel fliegt also im Winter in den Süden, 
weil er eine Rotdrossel ist. Im zweiten Beispiel lautet das Gesetz, dass alle 
Arbeiter SPD wählen. Mit diesem Gesetz und der Randbedingung, dass Y 
ein Arbeiter ist, können wir die Wahl der SPD durch Person Y erklären. 


Aus wahren Prämissen lassen sich mit Hilfe der deduktiven Logik wahre 
Schlüsse ableiten. Das Umgekehrte gilt nicht. Aus empirisch zutreffenden 
Schlussfolgerungen kann nicht die Wahrheit der Prämissen gefolgert wer- 
den. Beispielsweise könnte der beobachtete Vogel zwar wandern, aber nicht 
deshalb, weil er eine Rotdrossel ist, sondern weil er zu einer anderen Sorte 
Zugvögel zählt. Das herangezogene Gesetz wäre in diesem Fall also nicht 
die richtige Erklärung für das Zugverhalten des Vogels, weil es sich nicht 
um eine Rotdrossel handelt. 


6 Wissenschaftstheoretische Grundlagen 


Die Gültigkeit einer wissenschaftlichen Erklärung beruht demnach auf der 
Wahrheit der im Explanans verwendeten Aussagen. Für die wissenschafts- 
theoretische Auseinandersetzung spielte vor allem die Forderung wahrer 
Gesetze eine große Rolle. Eine Möglichkeit, die immer wieder in Betracht 
gezogen wurde, ist die Verifikation von Gesetzen durch Induktion (vgl. Po- 
ser 2001, 108-119). Die Induktion ist ebenso wie die Deduktion ein Schluss- 
verfahren. Allerdings werden bei der Induktion aus singulären Aussagen 
(„Dieser Schwan ist weiß“, „der Schwan dort hinten ist weiß“ usw.) allge- 
meine Aussagen („Alle Schwäne sind weiß“) abgeleitet. Im Gegensatz zu 
deduktiven Schlüssen sind induktive Schlüsse gehaltserweiternd, weil wir 
auf eine größere Zahl von Fällen schließen. Die Verifikation von Gesetzen 
durch Induktion hat allerdings einen Haken, der seit Hume als das Induk- 
tionsproblem bekannt ist. Auch wenn wir bisher immer nur weiße Schwäne 
gesehen haben, können wir daraus nicht folgern, dass dies auch in Zukunft 
so sein wird. Zudem ist es möglich, dass es nicht-weiße Schwäne gibt oder 
gab, die wir nicht beobachten bzw. beobachtet haben. Die ernüchternde 
Antwort ist daher: Wir können die Wahrheit von Gesetzen nicht durch 
Induktion beweisen. Das heißt natürlich nicht, dass ein Gesetz nicht wahr 
sein kann; die Wahrheit ist aber nicht feststellbar. 


Popper hat dies klar erkannt und zeigt uns eine Alternative auf. Ein Gesetz 
lässt sich zwar niemals durch Beobachtungen bewahrheiten (verifizieren). 
Eine einzige widersprechende Beobachtung reicht jedoch aus, um eine ge- 
setzesartige Aussage zu widerlegen (falsifizieren). 


1.2.2 Falsifikation statt Induktion 


Wegen des Induktionsproblems schlägt Popper vor, alle „Gesetze“ strikt 
als Hypothesen aufzufassen. Als Möglichkeit der Falsifikation von Hypo- 
thesen kann das H-O-Schema verwendet werden: Aus der Hypothese und 
den Randbedingungen werden Beobachtungssätze abgeleitet, die im kriti- 
schen Rationalismus Basissätze genannt werden. Erweist sich ein Basissatz 
als falsch, so wird die Hypothese widerlegt. Sobald wir eine einzige Rot- 
drossel entdecken, die im Winter hier bleibt, wissen wir, dass nicht alle 
Rotdrosseln Zugvögel sind. Vorausgesetzt, es handelt sich tatsächlich um 
eine Rotdrossel. Allgemein formuliert: Liegt die Randbedingung vor, nicht 
aber die Schlussfolgerung, dann ist die Hypothese widerlegt. 


Wir gehen so lange von der Gültigkeit der Hypothese aus, bis diese sich 
als falsch erwiesen hat. Solange wir ausschließlich Rotdrosseln beobach- 
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ten, die im Winter in den Süden fliegen, gehen wir also von der Gültigkeit 
der Aussage „Alle Rotdrosseln wandern“ aus. Eine Hypothese wird beibe- 
halten, wenn die Randbedingung und der Basissatz zutreffen. Gleichzeitig 
versuchen wir, unsere Hypothese wiederholt an der Realität zu prüfen. 
Eine Theorie hat sich nach Popper bewährt, wenn sie mehreren strengen 
Prüfungen standgehalten hat. Hält eine Hypothese einer Prüfung nicht 
stand, so muss sie verworfen und durch eine neue ersetzt werden. 


Falsifikation wird erst möglich, wenn die Hypothesen auch tatsächlich „an 
der Erfahrung scheitern können“ (vgl. Popper 1971, 15). Die Aussagen, 
die in Hypothesen und Gesetzen verwendet werden, müssen empirischen 
Gehalt haben. Die Aussage „Wer Böses tut, landet in der Hölle“ beruht 
wie alle metaphysischen Aussagen nicht auf Erfahrung und kann daher 
auch nicht durch Erfahrung widerlegt werden. An der Realität können 
ebenso wenig Aussagen scheitern, die immer wahr sind. Solche Aussa- 
gen werden als Tautologien bezeichnet. Ein Beispiel für eine Tautologie 
wäre: „Nach dem Lesen des Kapitels zur Wissenschaftstheorie verstehen 
Sie das Falsifikationsprinzip oder Sie verstehen es nicht.“ Dieser Satz ist 
immer wahr, denn die Folgerung beinhaltet alle möglichen Ereignisse. In 
diesem trivialen Beispiel ist die Tautologie natürlich leicht zu entdecken. 
In sozialwissenschaftlichen Theorien kann das schon schwieriger sein (vgl. 
Diekmann 2008, 157£.). Die potenzielle Falsifizierbarkeit von Hypothesen 
grenzt empirische Wissenschaften von nicht-empirischen Wissenschaften 
ab. 


Nicht widerlegbar sind auch Ekristenzaussagen, d.h. Aussagen über das 
Vorhandensein eines Gegenstandes oder mehrerer Gegenstände. Eine mög- 
liche Existenzaussage lautet etwa: „Es gibt einen weißen Schwan.“ Wollten 
wir diese Aussage widerlegen, so müssten wir die Farbe aller Schwäne in 
Vergangenheit, Gegenwart und Zukunft kennen. Umgekehrt reicht bereits 
ein einziger zutreffender Fall zur Bewahrheitung einer Existenzaussage. Se- 
hen wir einen weißen Schwan, dann ist die Aussage verifiziert. An diesem 
Beispiel zeigt sich die Asymmetrie zwischen Falsifikation und Verifikation 
bei All-Aussagen und Existenzaussagen. Bei einer Existenzaussage genügt 
eine zutreffende Beobachtung zur Verifikation, während diese nicht wider- 
legt werden kann. Genau umgekehrt verhält es sich mit den in Hypothesen 
verwendeten All-Aussagen: Hier genügt bereits eine widersprechende Be- 
obachtung zur Falsifikation, während All-Aussagen auch durch noch so 
viele zutreffende Beobachtungen nicht verifiziert werden können. So wur- 
de die für Europäer durch zahlreiche Beobachtungen belegte Aussage „Alle 
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Schwäne sind weiß“ mit der Entdeckung schwarzer Schwäne in Australien 
um 1700 widerlegt (vgl. Poser 2001, 111). 


Das Modell einer wissenschaftlichen Erklärung geht von raum-zeitlich un- 
beschränkten All-Aussagen aus. Häufig haben wir es jedoch mit raum- 
zeitlich begrenzten Hypothesen bzw. Theorien zu tun. So behauptet die 
Theorie des Wertewandels von Ronald Inglehart (Inglehart 1977) in nach- 
industriellen Gesellschaften ein Wandel von materiellen hin zu postmate- 
riellen Werten (vgl. einführend Bürklin und Klein 1998). Räumlich und 
zeitlich wird die Theorie auf „nach-industrielle Gesellschaften“ beschränkt 
(was darunter verstanden wird, ist nur eine Definitionsfrage). Über andere 
Gesellschaften wird also zunächst keine Aussage getroffen. Der Informa- 
tionsgehalt der Theorie wird durch die Eingrenzung geringer. Die Gefahr 
besteht darin, dass die raum-zeitliche Eingrenzung einer Theorie so weit 
geht, dass es keine potenziellen Falsifikatoren mehr für die Theorie gibt. 
Die Theorie wäre dann gegenüber Kritik immunisiert. 


1.2.3 Basissatzproblem 


Die Falsifikation von Hypothesen ist mit einem Problem konfrontiert, das 
Popper das Basissatzproblem genannt hat. Wir haben gesagt, dass eine 
Hypothese dann falsifiziert ist, wenn sie einer Konfrontation mit der Rea- 
lität nicht standhält. Eine Hypothese kann jedoch nie direkt durch Beob- 
achtungen geprüft werden, sondern nur anhand einer Aussage über eine 
Beobachtung. Diese Beobachtungsaussage kann aber fehlerhaft sein. Beob- 
achtungen - selbst Beobachtungen mit bloßem Auge - sind Beobachtungen 
im Lichte einer Beobachtungs- bzw. Messtheorie. Diese kann sich genau- 
so als falsch erweisen wie die eigentlich interessierende Theorie, z. B. weil 
unser Instrument etwas anderes misst als das, was es messen sollte. Ba- 
sissätze sind daher „objektiv kritisierbare Prüfsätze“ (Popper 1971, 76), 
deren Wahrheit ebenso wenig bewiesen werden kann, wie die der Theorie 
selbst. 


Aus diesem Dilemma befreit sich die Wissenschaft, indem sie stillschwei- 
gend vereinbart, dass der Forscher bei der Überprüfung einer Theorie den 
höchstmöglichen methodischen Standard einhält und seine Vorgehenswei- 
se nachprüfbar und damit der Kritik zugänglich macht. Ist dies der Fall, 
dann werden die Basissätze vorläufig anerkannt. Die Akzeptanz der Ba- 
sissätze ist demnach eine konventionelle Festsetzung. Popper hat für das 
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Problem der schwankenden empirischen Basis ein anschauliches Bild ge- 
funden. Die Wissenschaft ist für ihn ein Bau, dessen Pfeiler nicht auf Fels 
gründen, sondern sich ‚von oben her in den Sumpf senken - aber nicht bis 
zu einem natürlichen ‘gegebenen’ Grund“; „wenn man hofft, daß sie das 
Gebäude tragen werden, beschließt man, sich vorläufig mit der Festigkeit 
der Pfeiler zu begnügen“ (Popper 1971, 76). 


1.2.4 Probabilistische Hypothesen 


Das Falsifikationsprinzip ist zwar eine feine Sache, funktioniert in der be- 
schriebenen Form jedoch nur bei Hypothesen der Form „Immer wenn X, 
dann Y“. Solche Hypothesen werden als deterministisch bezeichnet. In 
den Sozialwissenschaften gibt es aber bisher keine deterministischen Hy- 
pothesen. Sozialwissenschaftliche Theorien und Hypothesen werden daher 
als statistische bzw. probabilistische Aussagen formuliert. Wir behaupten 
nicht mehr, dass alle Arbeiter die SPD wählen, sondern treffen eine Wahr- 
scheinlichkeitsaussage. Beispielsweise in der Form: „Arbeiter stimmen häu- 
figer für die SPD als für jede einzelne andere Partei.“ Bei Arbeitern müsste 
die SPD demnach die stärkste Partei sein. 


Diese Einschränkung hat erhebliche Konsequenzen. Aus einer probabilis- 
tischen Hypothese und den Anfangsbedingungen kann das Explanandum 
nicht mehr mit Hilfe der deduktiven Logik abgeleitet werden. Ist eine Per- 
son Arbeiter, dann ist die Wahrscheinlichkeit einer Wahlentscheidung zu- 
gunsten der SPD (bei Gültigkeit der Hypothese) zwar hoch, beträgt aber 
nicht 100%. Weil das Explanandum nur wahrscheinlich (nicht aber logisch 
zwingend) ist, sprechen wir hier von einer induktiv-statistischen Erklä- 
rung (vgl. Opp 2005, 56 f.). Ein einzelner Arbeiter, der eine andere Partei 
als die SPD wählt, widerlegt nicht die Hypothese. Probabilistische Hypo- 
thesen können daher nicht durch einen einzigen Fall falsifiziert werden. 
Wir sehen die Hypothese jedoch dann als „falsifiziert“ an, wenn wir bei 
einer hinreichend großen Zahl von Arbeitern beispielsweise einen höheren 
Prozentsatz an CDU- als an SPD-Wählern feststellen würden. Diese Ak- 
zeptanz einer „Falsifikation“ probabilistischer Hypothesen beruht jedoch 
auf der Annahme, dass die probabilistische Hypothese für jede beliebige 
Teilmenge von Fällen gilt (vgl. dazu Prim und Tilmann 1997, 89 ff.). 
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1.3 Der Ablauf des Forschungsprozesses 
1.3.1 „Der Kreis der Wissenschaft“ 


Den Ablauf des Forschungsprozesses kann man sich wie in der folgenden 
Abbildung als Kreislauf vorstellen (vgl. Wallace 1971). Wissenschaft ist 
demnach nichts anderes als eine Verzahnung von Theoriegewinnung und 
Theorieprüfung mittels Induktion und Deduktion. 


Abbildung 1.2: Theoriegewinnung und Theorieprüfung 


>= (Theorie/Hypothese ) 


INDUKTION D DEDUKTION 


Falsifikation/ : Basissätze 
Bewährung : 


| Beobachtungen ) 


Der eigentlich kreative Teil besteht in der Entwicklung von Theorien bzw. 
Hypothesen. Wie die verschiedenen Pfeile in der Graphik andeuten sollen, 
kann man auf die unterschiedlichsten Arten zu Theorien gelangen (z.B. 
durch Nachdenken). Eine gebräuchliche Methode besteht in der Verallge- 
meinerung einzelner Beobachtungen durch Induktion. Wir könnten z.B. 
eine Vielzahl von Schwänen beobachten. Daraus, dass alle von uns beob- 
achteten Schwäne weiß sind, gelangen wir zu dem Schluss, „Alle Schwäne 
sind weiß“. 


Wir können noch so viele weiße Schwäne beobachten - ein Beweis für die 
Wahrheit der Theorie ist es nicht, wie wir gesehen haben. Aus diesem 
Grunde scheidet das Induktionsprinzip zur Prüfung einer Theorie aus. 
Als Möglichkeit der Kritik von Theorien wurde von Popper deshalb das 
Falsifikationsprinzip vorgeschlagen. Wir leiten aus unserer Theorie Basis- 
sätze ab und schauen, ob diese mit unseren Beobachtungen in Einklang 
stehen oder nicht. Im ersteren Fall hat sich unsere Theorie bewährt, im 
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letzteren ist sie falsifiziert (gestrichelte Linie). Damit beginnt der Kreis- 
lauf von Neuem. Die vorhandenen Beobachtungen können als Grundlage 
der Modifikation der Theorie oder einer neuen Theorie dienen. 


Lakatos (1974) hat darauf hingewiesen, dass Theorien in der Praxis nicht 
allein aufgrund falsifizierender Beobachtungen aufgegeben werden (kön- 
nen). Dies wäre angesichts des Basissatzproblems und der damit verbun- 
denen Unsicherheit über die empirische Basis auch eine selbstmörderische 
Strategie. Eine Theorie wird erst dann preisgegeben, wenn wir eine alter- 
native Theorie besitzen, die einen theoretischen Gehaltsüberschuss auf- 
weist (die einen größeren Geltungsbereich als die alte Theorie hat), der 
zumindest teilweise empirisch bewährt ist (progressive Problemverschie- 
bung). Wird eine falsifizierte Theorie mangels geeigneterer Theorien bei- 
behalten bzw. so modifiziert, dass widersprechende Beobachtungen aus 
deren Geltungsbereich ausgeklammert werden, dann handelt es sich um 
eine degenerative Problemverschiebung (vgl. zur Einführung in die wissen- 
schaftstheoretischen Positionen von Kuhn, Lakatos und Feyerabend Poser 
2001). 


1.3.2 Der Ablauf einer empirischen Untersuchung 


Ausgangspunkt einer Untersuchung ist im Idealfall eine Theorie, d.h. ein 
„System logisch widerspruchsfreier Aussagen (Sätze, Hypothesen) über 
den jeweiligen Untersuchungsgegenstand mit den zugehörigen Definitio- 
nen der verwendeten Begriffe“ (Kromrey 2006, 52). Logisch konsistent 
bedeutet, dass sich die Aussagen, die in einer Theorie enthalten sind, 
nicht widersprechen dürfen. Da es in den Sozialwissenschaften bisher kaum 
Theorien gibt, liegen den meisten Untersuchungen jedoch Hypothesen zu- 
grunde. Eine zu überprüfende Hypothese könnte beispielsweise beinhalten, 
dass Vorurteile gegenüber Minderheiten mit der Größe der Minderheit in 
einem Gebiet zunehmen (vgl. bereits Blalock 1967). 


Präzisierung der Begriffe 


Zur Überprüfung einer Hypothese müssen die verwendeten Begriffe zu- 
nächst präzise definiert werden. Begriffe sind Mittel, mit deren Hilfe wir 
das Chaos von Eindrücken sprachlich ordnen. Es sind Regeln zur Struk- 
turierung von Wahrnehmungen. Sie sind dabei niemals identisch mit der 
Realität, sondern bezeichnen unser Modell von der Realität. Die Bildung 
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von Begriffen erfordert daher immer ein gewisses Maß an Abstraktion, 
d.h. eine Theorie darüber, was die gemeinsamen Merkmale des mit dem 
Begriff Bezeichneten sein sollen. 


Begriffe haben unterschiedliche Funktionen: Sie ermöglichen die Kommu- 
nikation über Gegenstände und dienen der Klassifikation (vgl. ausführli- 
cher Mayntz et al. 1978, 9-22). Diese Aufgaben von Begriffen sind nicht 
trivial: Ohne einen Begriff „Vorurteile“ ist eine Verständigung über dieses 
Phänomen nicht möglich. Begriffe, die mehrdeutig oder unbestimmt sind, 
erfüllen ihre Funktion nicht mehr. Mehrdeutig ist ein Begriff, wenn ver- 
schiedene Inhalte mit demselben Begriff bezeichnet werden, z. B. kann mit 
„Hahn“ das Tier oder ein Wasserhahn gemeint sein. Unbestimmt ist ein 
Begriff, wenn er nicht präzise genug gefasst ist. 


Aus diesem Grunde wird die Verwendung von Begriffen in wissenschaftli- 
chen Texten mit Hilfe von Definitionen (vgl. Opp 2005, 106-131) festge- 
legt. Realdefinitionen treffen Aussagen über die Beschaffenheit der Reali- 
tät. Versucht wird nach dieser Auffassung, das Wesen eines Gegenstandes 
zu erfassen. Die Form der Definition entspricht normalerweise einer Ist- 
Aussage. Realdefinitionen beinhalten demnach empirische Aussagen und 
können daher wahr oder falsch sein. Ein Beispiel wäre die Aussage „Sozio- 
logie ist eine empirische Wissenschaft“. Der Wahrheitsgehalt der Aussage 
kann beurteilt werden. Würde Soziologie als Wissenschaft sich nicht auf 
Erfahrung gründen, dann wäre diese Definition falsch. Opp (2005, 113 £.) 
verweist auf die Mehrdeutigkeit von Wesensbestimmungen (Bedeutungs- 
analysen, empirische Gesetze, Begriffsexplikationen, normative Aussagen 
usw.) und rät deshalb von ihrer Verwendung ab. 


In den Sozialwissenschaften werden in der Regel Nominaldefinitionen ver- 
wendet. Eine Nominaldefinition ist eine Festsetzung der Verwendung eines 
Begriffes. Ein Beispiel für eine nominale Definition von Herrschaft findet 
sich bei Max Weber: „Herrschaft soll heißen die Chance, für einen Be- 
fehl bestimmten Inhalts bei angebbaren Personen Gehorsam zu finden“ 
(Hervorhebung ergänzt, Weber 1980, 28). Der Begriff dessen Bedeutung 
festgelegt wird, hier Herrschaft, wird auch als Definiendum bezeichnet, der 
definierende Ausdruck „Chance ... Gehorsam zu finden“ als Definiens. Die 
Bestandteile des Definiens müssen bekannt sein. Es handelt sich um eine 
tautologische Umformung, weil das Definiendum dem Definiens gleichge- 
setzt wird. Statt der Verwendung des Begriffs Herrschaft könnte Max We- 
ber auch immer „Chance ... Gehorsam zu finden“ schreiben (was allerdings 
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etwas umständlich wäre). Eine Nominaldefinition ist eine Festsetzung über 
die Verwendung eines Begriffs. Sie beinhaltet keine empirische Behauptung 
und kann daher auch nicht wahr oder falsch sein. Für ein gegebenes Un- 
tersuchungsinteresse kann sich eine Nominaldefinition lediglich als mehr 
oder weniger zweckmäßig erweisen. Max Webers Herrschaftsbegriff be- 
zieht sich ausschließlich auf Interaktionen zwischen Menschen. Herrschaft 
über Tiere, die Natur etc. wird durch seinen Herrschaftsbegriff nicht er- 
fasst. Eine nominale Definition von Vorurteilen könnte etwa lauten: „Unter 
Vorurteilen sollen negative Einstellungen gegenüber den Angehörigen ei- 
ner sozialen Großgruppe verstanden werden“. Vorurteile werden damit als 
Einstellungen definiert. Diese Definition von Vorurteilen umfasst zudem 
nur negative Einstellungen. 


Operationalisierung 


Als Operationalisierung bezeichnet man alle Forschungsoperationen die 
notwendig sind, um einen Begriff zu messen. Eine Operationalisierung von 
Vorurteilen gegenüber Ausländern könnte etwa sein: „Je stärker ein Befrag- 
ter der Aussage ‘Wenn Arbeitsplätze knapp werden, dann sollte man die 
in Deutschland lebenden Ausländer wieder in ihre Heimat schicken’ auf 
einer siebenstufigen Skala zustimmt, umso größer sind dessen Vorurteile 
gegenüber Ausländern ausgeprägt“. Diese Operationalisierung zielt auf ei- 
ne Befragung von Personen ab. Der Ausländeranteil kann operationalisiert 
werden als das Verhältnis der bei den Einwohnemeldeämtern registrierten 
Personen mit ausländischer Staatsbürgerschaft zu allen bei den Einwoh- 
nemeldeämtern registrierten Personen. Hier wird auf amtliche Daten zur 
Messung zurückgegriffen. 


Es gibt für jeden Begriff verschiedene Möglichkeiten der Operationalisie- 
rung. Im amerikanischen Kontext wird Bildung häufig als die Zahl der 
Schuljahre operationalisiert, die eine Person absolviert hat. Eine alterna- 
tive Operationalisierung ist die CASMIN-Skala (z. B. Lechert et al. 2006). 
CASMIN steht für Comparative Analysis of Social Mobility in Industrial 
Nations. CASMIN kombiniert allgemeine und berufliche Zertifikate zu ver- 
schiedenen Stufen (Tabelle 1.2)." Für die Operationalisierung der Bildung 


1 Die Kategorien 2a - 2b - 2c sind vertauscht, weil im deutschen Bildungssystem die 
allgemeine Sekundarausbildung (Mittlere Reife, 2b) im Anschluss an die allgemeine 
Schulbildung einer beruflichen Ausbildung (2a) vorausgeht (vgl. Lechert et al. 2006, 
4). 
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Tabelle 1.2: Die CASMIN-Klassifikation 


la Kein Abschluss 

1b Hauptschulabschluss ohne beruflichen Abschluss 
lc Hauptschulabschluss und berufliche Ausbildung 
2b Mittlere Reife ohne berufliche Ausbildung 

2a Mittlere Reife und berufliche Ausbildung 


2c_gen Fachhochschulreife/ Abitur ohne berufliche Ausbildung 
2c_voc Fachhochschulreife/Abitur und berufliche Ausbildung 
3a Fachhochschulabschluss 

3b Universitärer Abschluss 


durch die CASMIN-Skala spricht, dass diese die starke Stratifizierung all- 
gemeiner Abschlüsse (Hauptschule, Realschule und Gymnasium) und die 
berufliche Spezifität des deutschen Bildungssystems angemessen erfasst, 
die sich unter anderem für die berufliche Erstplatzierung als bedeutsam 
erwiesen haben (vgl. z.B. Müller und Shavit 1998). 


Eine gegebene Operationalisierung kann sich im Verlauf des Forschungs- 
prozesses als angemessen oder unangemessen erweisen. Operationalisie- 
rungen müssen daher genauso zur Disposition stehen wie Hypothesen 
auch. Ist die Datenerhebung abgeschlossen, dann kann der Fehler kaum 
mehr korrigiert werden. 


Erhebung und Auswertung von Daten 


Der letzte und für die Prüfung der Theorie entscheidende Schritt besteht in 
der Erhebung von Daten durch Beobachtung im weiteren Sinne. Die klas- 
sischen Formen der Datenerhebung sind die Befragung, die Inhaltsanalyse 
und die Beobachtung. Man muss jedoch nicht zwangsläufig eigene Daten 
erheben. Für viele Untersuchungszwecke kann man auf Daten zurückgrei- 
fen, die Andere erhoben haben und für wissenschaftliche Analysen zur 
Verfügung stellen. Wir werden im folgenden Kapitel darauf zurückkom- 
men. Die Daten müssen dann im Hinblick auf die interessierende Hypo- 
these statistisch ausgewertet werden. Voraussetzung für die Akzeptanz der 
empirischen Resultate ist die Einhaltung der methodischen Standards. 


Die Erhebung und die statische Auswertung von Daten sind Gegenstand 
der weiteren Kapitel dieses Buches. 
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Bei der Wahl des Forschungsdesigns müssen verschiedene Aspekte beach- 
tet werden: Sollen die Daten selbst erhoben werden oder kann auf bereits 
vorhandene Daten zurückgegriffen werden? Auf welche Untersuchungsebe- 
ne zielt die Fragestellung? Welchen Zeitraum sollen die Daten abdecken? 
Wird ein Experiment oder z. B. eine Umfrage durchgeführt? Da das For- 
schungsdesign im Nachhinein nicht mehr veränderbar ist, ist es wichtig, 
eine Untersuchung genau zu planen, um nicht später auf unbrauchbaren 
„Datenfriedhöfen“ zu sitzen oder Einschränkungen hinsichtlich der Gültig- 
keit der erzielten Ergebnisse hinnehmen zu müssen. 


Daten können als „beobachtete Merkmalsausprägungen auf Merkmalsdi- 
mensionen von Untersuchungseinheiten“ (Mayntz et al. 1978, 35) gekenn- 
zeichnet werden. Als Untersuchungseinheiten (auch: Merkmalsträger) wer- 
den die Einheiten bezeichnet, an denen die Beobachtungen vorgenommen 
werden. Untersuchungseinheiten sind häufig Personen, es kann sich aber 
auch um Haushalte, Staaten oder andere Einheiten handeln. Merkmals- 
dimensionen - wir werden im Weiteren den Begriff Merkmale verwenden 
- wären bei Personen z.B. das Geschlecht, das Alter oder das politische 
Interesse. Die möglichen Kategorien der Merkmale werden als Merkmals- 
ausprägungen bezeichnet. Das Merkmal „politisches Interesse“ könnte die 
Ausprägungen „stark“, „mittel“ und „schwach“ annehmen. Variablen sind 
Merkmale von Untersuchungseinheiten, die mindestens zwei Ausprägun- 
gen annehmen können. Sind den Ausprägungen bereits Zahlen zugeordnet 
worden, etwa 1 für „starkes“, 2 für „mittleres“ und 3 für „schwaches“ politi- 
sches Interesse (siehe Kapitel 3), dann werden diese auch Werte genannt. 


2.1 Datenerhebung 


Eine der wichtigsten Entscheidungen, die bei der Planung einer Untersu- 
chung getroffen werden muss, betrifft die Frage, wer die zu analysierenden 
Daten erhebt. Man unterscheidet zwischen: 


U. W. Gehring, C. Weins, Grundkurs Statistik für Politologen und Soziologen, 
DOI 10.1007/978-3-531-91879-2_2, 
© VS Verlag für Sozialwissenschaften | GWV Fachverlage GmbH, Wiesbaden 2009 
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e Primäranalyse 
e Sekundäranalyse 


Im ersten Fall werden die benötigten Daten selbst erhoben und von demje- 
nigen, der die Daten erhoben hat, auch zuerst ausgewertet — deshalb Pri- 
märanalyse. Im zweiten Fall wertet man von anderen erhobene und in der 
Regel bereits ausgewertete Daten ein weiteres Mal aus — deshalb Sekun- 
däranalyse. Bei der Sekundäranalyse können die Daten ursprünglich zu 
einem völlig anderen Zweck erhoben worden sein. Wichtig ist nur, dass sie 
dem Untersuchungszweck der erneuten Analyse dienlich sind. 


Eine Primärerhebung bietet den entscheidenden Vorteil, dass genau die 
Merkmalsausprägungen erhoben werden können, die benötigt werden. Der 
Nachteil besteht darin, dass dies mit hohen (manchmal zu hohen) Kosten 
verbunden sein kann. Bei Sekundäranalysen stehen möglicherweise nicht 
alle gewünschten Informationen zur Verfügung — dafür hat man nur sehr 
geringe (oft sogar gar keine) Kosten zu tragen. 


Besonders groß ist der Preisunterschied zwischen Primär- und Sekundär- 
analysen bei Umfragen. Allein die in einer mündlichen Umfrage anfallen- 
den Kosten zur Bezahlung der Interviewer bzw. Portokosten zur Versen- 
dung der Fragebögen können erheblich sein. So hat 1996 eine ca. einstün- 
dige bevölkerungsweite Befragung mit dem vom Zentrum für Umfragen, 
Methoden und Analysen (ZU MAI in Mannheim und der Gesellschaft für 
Marketing-, Kommunikations- und Sozialforschung mbH (GFM-GETAS, 
heute: IPSOS) in Hamburg gemeinsam durchgeführten SOZIALWISSEN- 
SCHAFTENBUS ca. 400.000,- DM gekostet.? Die Kosten einer Sekundär- 
analyse eines vergleichbaren Datensatzes, nämlich des von uns auch in 
diesem Lehrbuch immer wieder verwendeten ALLBUS 1994, beliefen sich 
dagegen nur auf 175,- DM (inklusive Codebuch). Für Studierende belaufen 
sich die Kosten für eine ALLBUS-Umfrage aktuell auf maximal 25 Euro 
(Daten auf CD). 


In Deutschland werden Sekundärdaten von der Abteilung Datenarchiv 
und Datenanalyse der GESIS (früher: Zentralarchiv für empirische So- 
zialforschung, ZA) in Köln archiviert und gegen Entgelt für Sekundär- 
analysen bereitgestellt. Der Datenbestandskatalog listet mehrere tausend 


1 Heute: Center for Survey Design and Methodology (CSDM) der GESIS. 
2 Der SozialwissenschaftenBus wurde zwischen 1985 und 1998 einmal jährlich durch- 
geführt. 
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für die wissenschaftliche Öffentlichkeit verfügbare Studien auf. Eine Re- 
cherche im Datenbestandskatalog ist über die Internetseite der GESIS 
(http: //www.gesis.org/dienstleistungen/daten/) möglich. Über die 
GESIS können für wissenschaftliche Zwecke unter anderem die Daten des 
ALLBUS, des Politbarometer und Studien zu Bundes- und Landtags- 
wahlen bezogen werden. Das Angebot ist nicht auf deutsche Studien be- 
schränkt. Es umfasst auch internationale Erhebungen wie den ISSP (In- 
ternational Social Survey Programme), die European Values Study oder 
das Eurobarometer. 


Sekundärdaten sind auch bei anderen Institutionen erhältlich. Die Sta- 
tistischen Landesämter und das Statistische Bundesamt in Wiesbaden 
sind eine wichtige Quelle für Sekundärdaten. Dort kann man u.a. Wahl- 
und Volkszählungsdaten auf unterschiedlichen regionalen Ebenen (z.B. 
für Verwaltungseinheiten wie Gemeinden und Kreise, aber auch für Land- 
tagswahlkreise usw.) in maschinenlesbarer Form erhalten. Vom Deut- 
schen Institut für Wirtschaftsforschung (DIW) in Berlin wird das Sozio- 
ökonomische Panel (SOEP) aufbereitet und ebenfalls für wissenschaftli- 
che Zwecke zur Verfügung gestellt. Das Sozio-ökonomische Panel beinhal- 
tet unter anderem detaillierte Indikatoren zur beruflichen und Einkom- 
menssituation der Befragten und ist daher eine wichtige Datenquelle zur 
Analyse sozialer Ungleichheit. Ein wichtiger Datengeber ist auch das For- 
schungsdatenzentrum (FDZ) der Bundesagentur für Arbeit im Institut für 
Arbeitsmarkt- und Berufssforschung (IAB) in Nürnberg. Das IAB stellt 
Daten zur Verfügung, die aus den Meldungen der Arbeitgeber an die Sozi- 
alversicherungsträger stammen. Solche für Verwaltungszwecke erhobenen 
Daten nennt man auch prozessproduzierte Daten. Daneben erhebt das IAB 
auch selbst Daten, wie das Betriebspanel. Die Daten des TAB ermöglichen 
detaillierte Analysen der Erwerbsbiographie von Personen. 


2.2 Ebene der Untersuchungseinheit 


Nach der Ebene auf der die Daten erhoben werden, wird häufig unterschie- 
den zwischen: 


e Individualdaten 
e Aggregatdaten 
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Individualdaten beinhalten Informationen über Personen bzw. indivi- 
duelle Merkmale. Beispiele wären die Wahlabsicht oder das Alter von 
Personen. Aggregatdaten beinhalten Informationen über Gruppen bzw. 
Kollektive, die aus der Zusammenfassung (Aggregation) von Messwerten 
der Mitglieder dieser Kollektive beruhen, z. B. durch Summenbildung, Pro- 
zentuierung oder eine andere Rechenoperation. Bei Aggregatdaten handelt 
es sich immer um „abgeleitete Daten“ (Pappi 1977, 81). Aggregatdaten 
werden also nicht an den Kollektiven selbst gewonnen, sondern an den 
Mitgliedern dieser Kollektive. Die Mitglieder der Kollektive können, müs- 
sen aber keine Individuen sein. Die Stimmenanteile von Parteien oder das 
Durchschnittsalter der Bundesdeutschen sind Aggregatdaten, die aus den 
Individualdaten Wahlabsicht und Alter gebildet wurden. Daten, die räum- 
lich aggregiert wurden (z.B. auf der Ebene von Gemeinden, Wahlkreisen 
oder Staaten), nennt man auch ökologische Daten. Individualdaten stam- 
men zumeist aus Umfragen, Aggregatdaten werden häufig von der amtli- 
chen Statistik bereitgestellt. 


Gelegentlich werden auch solche Daten von Kollektiven als Aggregatda- 
ten bezeichnet, die nicht auf Aggregation beruhen, wie z.B. ein Index 
zur Messung von Bürgerrechten in Staaten (vgl. Widmaier 1997, 104). 
Nach der Klassifikation von Lazarsfeld und Menzel (1972, 228 f.) handelt 
es sich hierbei um ein globales Merkmal (global property) des Kollektivs. 
Ein anderes Beispiel für ein globales Merkmal wäre das Regierungssystem 
eines Staates. Globale Merkmale werden direkt am Kollektiv gemessen 
und besitzen nach der Vorstellung von Lazarsfeld und Menzel (1972) kei- 
ne Entsprechung auf der Ebene der Mitglieder des Kollektivs. Aggregierte 
und globale Merkmale sind eine Untergruppe der Kollektivmerkmale (vgl. 
dazu Pappi 1977, S. 80 f.). 


Ob Individualdaten oder Daten für Kollektive erhoben werden, bestimmt 
sich aus der Forschungsfrage. Geht es um Motive der Wahlentscheidung, 
so werden sich die Hypothesen möglicherweise auf Eigenschaften einzel- 
ner Wähler wie deren Kanzlerpräferenz oder Parteiidentifikation richten. 
Wenn alle interessierenden Merkmale auf der Individualebene angesiedelt 
sind, handelt es sich um eine Individualhypothese. Anders verhält es sich 
dagegen, wenn eine Hypothese über den Einfluss des Katholikenanteils auf 
den Stimmenanteil der Christdemokraten in Wahlkreisen formuliert wird 
(vgl. Kapitel 8). Hier bezieht sich die Hypothese auf Kollektive. Dies ist 
insbesondere in der Vergleichenden Politikwissenschaft und der Internatio- 
nalen Politik (vgl. Widmaier 1997) häufig der Fall. So beinhaltet beispiels- 
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weise das viel diskutierte Theorem vom „Demokratischen Frieden“, dass de- 
mokratische Staaten keine Kriege gegeneinander führen (vgl. Teusch und 
Kahl 2001; Chan 1997). Natürlich können sich Hypothesen auch auf Kol- 
lektive und Individuen beziehen. Etwa dann, wenn die These beinhaltet, 
dass die Stimmabgabe zugunsten der CDU bei Katholiken mit zunehmen- 
dem Katholikenanteil in der Gemeinde steigt. Oder wenn behauptet wird, 
dass Vorurteile nicht nur von Individualmerkmalen wie Bildung usw., son- 
dern auch der Größe der Minderheit in einem Gebiet abhängen. Es handelt 
sich hier um Mehrebenenhypothesen, weil die Kollektivmerkmale (Katho- 
likenanteil, Größe der Minderheit) und individuelle Merkmale (Konfessi- 
on, Bildung) als relevant zur Erklärung des Verhaltens (Stimmabgabe) 
bzw. der Einstellungen (Vorurteile) angesehen werden. Mehrebenenanaly- 
sen (vgl. Ditton 1998; Snijders und Bosker 1999) erlauben die simultane 
Analyse von Daten auf verschiedenen Ebenen. Mehrebenenanalysen set- 
zen voraus, dass hinreichend viele Individuen und Kollektive untersucht 
werden. Nach Snijders und Bosker (1999, 140, 150) sollten auf jeder Ebe- 
ne mindestens 30 Einheiten untersucht werden. Bei Analysen in denen 
Staaten die Kollektive sind, ist diese Bedingung für die Ebene der Staaten 
häufig nicht erfüllt. Zudem muss sichergestellt sein, dass auch die Kollek- 
tivmerkmale genügend Varianz aufweisen. So sollte sich beispielsweise der 
Katholikenanteil in den untersuchten Kollektiven unterscheiden. 


Aggregatdaten können auf einem unterschiedlichen Aggregationsniveau 
vorliegen; Bundestagswahlergebnisse beispielsweise auf Ebene der Bundes- 
tagswahlkreise, auf Ebene der Bundesländer oder auf Bundesebene. Von 
den Statistischen Ämtern werden z.B. die ursprünglich als Individual- 
daten vorliegenden Volkszählungsdaten (Geschlecht, Religionszugehörig- 
keit, Berufszugehörigkeit, Schulabschluss usw.) auf verschiedenen Ebenen 
(Gemeinden, Kreise usw.) aggregiert und auch nur in aggregierter Form 
weitergegeben. Aus naheliegenden Gründen werden auch Wahldaten nur 
als Aggregatdaten zur Verfügung gestellt. Mit der Aggregation ist ein In- 
formationsverlust verbunden. Bezogen auf das Volkszählungsbeispiel: die 
aggregierten Volkszählungsdaten geben lediglich Auskunft über die An- 
zahl der Männer, der Frauen, der Menschen mit einem bestimmten Schul- 
abschluss usw. in einem bestimmten Gebiet. Wie viele Frauen und wie 
viele Männer welchen Schulabschluss haben, lässt sich den aggregierten 
Volkszählungsdaten nicht mehr entnehmen. Aus den aggregierten Volks- 
zählungsdaten lassen sich die ursprünglichen Individualdaten nicht mehr 
herstellen, eine Disaggregation der Daten ist nicht möglich. 
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Wie das Beispiel der Volkszählungsdaten zeigt, welche nur als Aggregat- 
daten zugänglich gemacht werden, kann man sich nicht immer aussuchen, 
ob man mit Individual- oder Aggregatdaten arbeitet. So ist die historische 
Wahlforschung weitgehend auf die Analyse von Aggregatdaten angewie- 
sen, da bis in die 50er Jahre des 20. Jahrhunderts Umfragedaten sehr 
rar sind. Für Analysen der Wahlen des Deutschen Reichs greift man auf 
die Volkszählungs- und Wahldaten zurück, die in der Statistik des Deut- 
schen Reichs veröffentlicht wurden (vgl. exemplarisch Winkler 1995; Falter 
1991). Es kann also passieren, dass man Aussagen über Individuen treffen 
möchte, tatsächlich aber nur Aggregatdaten zur Verfügung stehen. 


Ökologischer Fehlschluss 


In diesem Zusammenhang muss man darauf achten, keinen Fehlschluss 
zu begehen. Fehlschlüsse entstehen immer dann, wenn Aussageeinheit 
und Untersuchungseinheit auf unterschiedlichen Ebenen angesiedelt sind. 
Schließt man von Beziehungen auf der Aggregatebene auf Beziehungen der 
Individualebene (allgemein: einer niedrigeren Ebene), begeht man einen 
ökologischen Fehlschluss. Schließt man im umgekehrten Fall von Bezie- 
hungen auf der Individualebene auf Beziehungen der Aggregatebene, liegt 
ein individualistischer Fehlschluss vor. 


Für die Sozialwissenschaften ist vor allem der ökologische Fehlschluss 
(vgl. Robinson 1950) von Bedeutung, da die Daten häufig in stärker ag- 
gregierter Form vorliegen, als man sie für die beabsichtigten Aussagen 
bräuchte. So schlossen einige Historiker (vgl. die Literaturhinweise bei 
Falter et al. 1983, 528) aus dem bei den Reichstagswahlen zwischen 1930 
und 1932 zeitgleich erfolgten Anstieg der Arbeitslosigkeit und den Wahl- 
erfolgen der NSDAP auf Reichsebene, dass Arbeitslose überproportional 
häufig für die NSDAP gestimmt hätten. 


Aufgrund von Zusammenhängen auf der Reichsebene (Zahl der Arbeits- 
losen und NSDAP-Stimmen) wurden Aussagen über Zusammenhänge auf 
der individuellen Ebene (Arbeitslosigkeitund NSDAP-Stimmabgabe) ge- 
troffen. Dieser Schluss ist jedoch nicht zulässig und kann sich auch inhalt- 
lich als falsch erweisen, nämlich dann, wenn Arbeitslose nicht überpropor- 
tional häufig für die NSDAP gestimmt haben (vgl. auch Frey und Weck 
1981, 6 und 25). Auf der Individualebene lässt sich der Zusammenhang 
nicht mehr untersuchen. Allerdings kann man den Zusammenhang auf ei- 
nem niedrigeren Aggregationsniveau prüfen. So stellten Falter et al. (1983) 
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fest, dass die NSDAP in Kreisen mit einem hohen Anteil erwerbsloser 
Angestellter und Arbeiter durchschnittlich keine höheren Stimmenantei- 
le erzielte. Im Gegenteil: In Kreisen mit einem hohen Erwerbslosenanteil 
schnitt die NSDAP durchschnittlich sogar schlechter ab (vgl. Falter et al. 
1983, 532). Die Ergebnisse von Falter et al. sprechen gegen den auf Reichs- 
und Bezirksebene (vgl. Frey und Weck 1981) festgestellten positiven Ein- 
fluss der Erwerbslosigkeit auf den Stimmenzuwachs der NSDAP zwischen 
1930 und 1932, da die Erklärungskraft auf Kreisebene höher ist als auf 
der Ebene der Bezirke bzw. des gesamten Reiches. Dennoch kann man 
auch von den weniger stark aggregierten Kreisdaten nicht einfach auf das 
Wahlverhalten von Arbeitslosen schließen. 


Zwar ist das Problem des ökologischen Fehlschlusses nicht lösbar; es sind 
jedoch statistische Verfahren entwickelt worden (ökologische Inferenz), 
mit deren Hilfe Zusammenhänge der individuellen Ebene geschätzt wer- 
den können. Mit einer ökologischen Regression zeigt Falter (1991), dass 
die Stimmenanteile für die NSDAP bei Arbeitslosen unterdurchschnittlich 
waren. Arbeitslose scheinen in deutlich stärkerem Umfang für die KPD 
als die NSDAP gestimmt zu haben (vgl. Abbildung 2.1). Zumindest di- 
rekt scheint die NSDAP nicht von der Massenarbeitslosigkeit profitiert 
zu haben. Die neueren Verfahren (vgl. King 1997) kombinieren die von 
Falter verwendete Methode der ökologischen Regression mit der Methode 
der Grenzen (method of bounds) und treffen weniger restriktive Annahmen 
zur Schätzung der Anteile (vgl. einführend Gschwend 2005). Ohne Hin- 
zuziehung solcher Verfahren sollten die Aussagen einer Untersuchung sich 
immer auf die Ebene der Untersuchungseinheit (Analyseebene) beziehen, 
nie auf eine andere Ebene. 


An einem weiteren gern verwendeten Beispiel (vgl. Bürklin und Klein 1998, 
35f.) lässt sich die Problematik des ökologischen Fehlschlusses besonders 
gut verdeutlichen: Bei Bundestagswahlen besteht auf Wahlkreisebene ein 
positiver Zusammenhang zwischen dem Anteil der Ausländer und dem 
Stimmenanteil der GRÜNEN. Dennoch würde niemand aus diesem Er- 
gebnis folgern, dass Ausländer in hohem Umfang die GRÜNEN wählen, 
da Ausländer auf Bundesebene kein Wahlrecht besitzen. Die Aussage „Je 
höher der Ausländeranteil in einem Wahlkreis, umso besser schneiden die 
GRÜNEN ab“ ist richtig; die Aussage „Ausländer wählen überproportional 
häufig die GRÜNEN“ dagegen offenkundig falsch. 
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Abbildung 2.1: Stimmenanteile der NSDAP und der KPD bei Arbeitslo- 
sen und bei allen Wählern (Angaben in Prozent) 
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2.3 Untersuchungsanordnung 


Generell kann man zwischen zwei Gruppen von Untersuchungsanordnun- 
gen unterscheiden: 


e Experimente 
e Fx-post-facto-Anordnungen 


In Experimenten werden die Bedingungen der Untersuchung selbst her- 
gestellt und unterliegen damit der Kontrolle und der Einflussnahme des 
Forschers (vgl. Sarris 1999). Experimentelle Anordnungen sehen bei zwei 
Gruppen so aus, dass einer Gruppe eine Behandlung zuteil wird ( Experi- 
mentalgruppe), einer zweiten Gruppe - die sich ansonsten von der ersten 
Gruppe nicht unterscheidet - jedoch nicht (Kontrollgruppe). Wie die Be- 
handlung (treatment oder Stimulus) wirkt, kann nach dem Versuch an 
möglichen Unterschieden zwischen Experimental- und Kontrollgruppe ab- 
gelesen werden. Der Stimulus stellt die unabhängige Variable dar; die Va- 
riable also, von der ein Einfluss auf das interessierende Merkmal (die ab- 
hängige Variable) vermutet wird. 
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Um die Unterschiede zwischen Experimental- und Kontrollgruppe aus- 
zuschalten, werden die zur Verfügung stehenden Probanden nach einem 
Zufallsverfahren den Gruppen zugewiesen; dieses Verfahren nennt man 
Randomisierung oder Zufallsaufteilung. Randomisierte Gruppen dürften 
sich in der Verteilung ihrer Eigenschaften, einmal abgesehen von Zufalls- 
schwankungen, nicht unterscheiden. Durch die Randomisierung wird si- 
chergestellt, dass mögliche Unterschiede zwischen Kontroll- und Experi- 
mentalgruppe nach dem Experiment tatsächlich auf den Stimulus zurück- 
zuführen sind und nicht etwa aus der unterschiedlichen Zusammenset- 
zung der beiden Gruppen resultieren. Die Ursache-Wirkungs-Beziehung 
(Kausalität ist damit feststellbar. Zusätzlich zur Beobachtung nach dem 
Versuch kann eine Beobachtung vor dem Versuch stattfinden (Vorher- 
Nachher-Messung). Dadurch kann kontrolliert werden, ob sich die bei- 
den Gruppen in dem interessierenden Merkmal bereits vor dem Setzen 
des Stimulus (T) unterscheiden. Durch die Vorher-Messung können je- 
doch Lerneffekte bei den Teilnehmern der Untersuchung auftreten, die 
Nachher-Messung beeinflussen. Solche Effekte lassen sich mit Solomons 
Vier-Gruppen-Design kontrollieren (vgl. Campbell und Stanley 1966). Hier 
wird bei zwei randomisierten Gruppen (mit/ohne treatment) eine Vorher- 
Nachher-Messung durchgeführt, bei zwei weiteren randomisierten Grup- 
pen (mit/ohne treatment) wird lediglich eine Nachher-Messung durchge- 
führt (Abbildung 2.3). 


Abbildung 2.2: Solomons Vier-Gruppen-Design 
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Bisher wurde von randomisierten Gruppen ausgegangen. Eine alternative 
Strategie zur Ausschaltung von systematischen Unterschieden zwischen 
Kontroll- und Experimentalgruppe ist die Parallelisierung (matching). 
Zwei Methoden werden unterschieden. Bei der Parallelisierung von Grup- 
pen (matched groups) wird versucht, dieselbe Randverteilung bestimmter 
Merkmale in beiden Gruppen herzustellen, z. B. Geschlecht und Bildung. 
Die Gruppen haben dann einen gleichen Anteil an Männern und Frau- 
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en und die gleiche Bildungsstruktur. Bei der Parallelisierung von Paaren 
(matched pairs) wird versucht, dass in beiden Gruppen Personen mit den 
gleichen Merkmalskombinationen - z.B. Bildung und Geschlecht - vorhan- 
den sind. Einer Frau mit Hochschulabschluss in der Experimentalgruppe 
wird dann eine Frau mit Hochschulabschluss in der Kontrollgruppe zu- 
geordnet. Die Merkmalskombinationen von Bildung und Geschlecht sind 
dann in den Gruppen gleich. Matching-Verfahren sind der Randomisie- 
rung im allgemeinen unterlegen. Es ist kaum möglich, die Gruppen nach 
mehr als zwei Merkmalskombinationen zu matchen. Selbst wenn die Kom- 
bination von Geschlecht und Bildung in den Gruppen identisch ist, heift 
dies nicht, dass die Gruppen in anderen für die Untersuchungsfrage bedeu- 
tenden Merkmalen (Drittvariablen) gleich sind. Dies ist der entscheidende 
Vorteil der Zufallsaufteilung. 


Experimentelle Designs finden sich häufig in der der Psychologie und Me- 
dizin, in letzterer vor allem zum Testen der Wirksamkeit neuer Medika- 
mente. Den Mitgliedern der Versuchsgruppe wird hierbei das Medikament 
verabreicht, während die Mitglieder der Kontrollgruppe lediglich ein Pla- 
cebo erhalten. Von einem Blindversuch spricht man, wenn die Probanden 
nicht wissen, ob sie zur Experimental- oder Kontrollgruppe gehören. Da- 
mit soll verhindert werden, dass die Versuchsteilnehmer aufgrund ihres 
Wissens um den Erhalt oder Nicht-Erhalt der Behandlung eine unter- 
schiedliche Reaktion zeigen. Doppelblindversuche liegen vor, wenn weder 
die Probanden noch der Versuchsleiter wissen, wer zur Experimental- bzw. 
Kontrollgruppe gehört. Hiermit sollen unbewusste Beeinflussungen durch 
den Versuchsleiter ausgeschaltet werden. Stellt man bei den Mitgliedern 
der Experimentalgruppe eine Verbesserung des Gesundheitszustands fest, 
bei den Mitgliedern der Kontrollgruppe jedoch nicht, so kann dies bei 
randomisierten Gruppen auf die Wirkung des zuvor verabreichten Medi- 
kaments zurückgeführt werden. 


Experimentelle Anordnungen zeichnen sich durch die Randomisierung und 
das kontrollierte Setzen der unabhängigen Variable aus. Aufgrund von 
Randomisierung und zeitlicher Abfolge von Stimulus (unabhängiger Va- 
riable) und Wirkung (abhängige Variable) ermöglichen Experimente die 
Prüfung kausaler Hypothesen. Dies ist der entscheidende Vorteil im Ver- 
gleich zu den nachfolgend diskutierten Ex-post-facto-Andordnungen. Ein 
Nachteil experimenteller Untersuchungsformen besteht allerdings in der 
Schwierigkeit der Verallgemeinerung der Ergebnisse, d.h. der externen 
Validität. Vor allem deshalb, weil bei Experimenten meistens andere — 


Untersuchungsanordnung 25 


einfachere — Bedingungen hergestellt werden, als sie in der Realität vor- 
herrschen. Dies gilt in besonderem Umfang für Experimente in künstlichen 
Umgebungen (Laborexperimente). 


In den Sozialwissenschaften sind experimentelle Untersuchungsanordnun- 
gen mit randomisierten Gruppen quantitativ eher von untergeordneter 
Bedeutung (vgl. exemplarisch Gschwend und Hooghe 2008). Sie scheinen 
aber in den vergangenen Jahrzehnten an Bedeutung gewonnen zu haben, 
wie eine Auswertung der Artikel der American Political Science Review 
nahelegt (vgl. Druckman et al. 2006). Die Dominanz nicht-experimenteller 
Untersuchungsanordnungen liegt darin begründet, dass der Stimulus häu- 
fig nicht vom Forscher gesetzt werden kann. Man denke z.B. an die Fra- 
ge, ob Arbeitslosigkeit politische Apathie erzeugt. Hier lassen sich keine 
Gruppen bilden, deren Mitglieder nach dem Prinzip der Zufallsaufteilung 
Arbeitslosigkeit ausgesetzt werden (Experimentalgruppe) oder nicht (Kon- 
trollgruppe), um anschließend politisches Verhalten zu messen. (Es wäre 
ethisch auch nicht vertretbar.) 


Methodenexperimente werden häufiger durchgeführt. So wurden im Allbus 
2006 mit dem Themenschwerpunkt „Einstellungen gegenüber ethnischen 
Gruppen in Deutschland“ bei der Erhebung von einigen Einstellungen 
gegenüber Ausländern (vgl. Abbildung 3.2, S. 49) die Privatheit der Be- 
fragungssituation variiert (vgl. Wasmer et al. 2007). Bei einem Teil der 
Befragten wurden die Einstellungen vom Interviewer in einer mündlichen 
Befragung mit Computer erhoben (computer assisted personal interview, 
CAPI). Ein anderer Teil der Befragten füllte die Antworten selbst am 
Computer aus (computer assisted self interview, CASI). Die Zuteilung 
zur CAPI bzw. CASI-Gruppe erfolgte zufällig. Es handelt sich also um 
randomisierte Gruppen. Das Selbstausfüllen ist weniger „öffentlich“, weil 
die Einstellungen nicht dem Interviewer mitgeteilt werden müssen. Man 
kann daher erwarten, dass die CASI-Befragten eine geringere Tendenz auf- 
weisen, ihre Antworten an dem auszurichten, was sie für sozial erwünscht 
halten (vgl. Kapitel 4.1). Mit dem ALLBUS 2006 kann dies kontrolliert 
werden, weil eine Skala zur Messung sozialer Erwünschtheit und die von 
den Befragten als sozial erwünscht angesehenen Positionen zu den vier 
Aussagen erhoben wurden. 


Die Ex-post-facto-Anordnung ist die in den Sozialwissenschaften am 
häufigsten vorkommende Untersuchungsanordnung. Dabei kann es sich um 
eine Befragung, eine Beobachtung oder eine Inhaltsanalyse handeln (siehe 
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Kapitel 4). Die Untersuchungseinheiten — meist sind es Teilnehmer einer 
Befragung — werden erst im Nachhinein Lex post“), nämlich bei der Da- 
tenauswertung, in Experimental- und Kontrollgruppe unterteilt. 


Untersucht man mit einer Umfrage, ob Arbeitslosigkeit die Wahl extremer 
Parteien begünstigt, so würde man die Stichprobe bei der Auswertung in 
Arbeitslose und Nicht-Arbeitslose aufteilen und für beide Gruppen das 
Wahlverhalten (gemessen z.B. durch die Wahlsonntagsfrage) ermitteln. 
Zeigt sich, dass Arbeitslose in stärkerem Umfang extreme Parteien wäh- 
len als Nicht-Arbeitslose, so heißt dies allerdings noch nicht, dass Arbeits- 
losigkeit politisch extremes Wahlverhalten verursacht, also ein kausaler 
Zusammenhang vorliegt. Warum? 


In Experimenten können beobachtete Unterschiede auf die unabhängige 
Variable (den Stimulus) zurückgeführt werden, weil es sich um randomi- 
sierte Gruppen handelt und die unabhängige Variable der abhängigen Va- 
riable zeitlich vorgelagert ist. Randomisierte Gruppen unterscheiden sich 
bei Experimenten in der unabhängigen Variable (dem Stimulus) und mög- 
licherweise in der abhängigen Variable (der Wirkung); sie unterscheiden 
sich jedoch nicht im Hinblick auf andere „dritte“ Variablen, da die Zu- 
fallsaufteilung der Probanden eine gleiche Verteilung der Eigenschaften in 
Experimental- und Kontrollgruppe sicherstellt. Da die Gruppen sich nur 
in der unabhängigen Variable (Stimulus) unterscheiden, scheiden andere 
Faktoren als Ursache der Unterschiede in der abhängigen Variable aus. 
Experimente weisen daher eine hohe interne Validität auf. Bei Ex-post- 
facto-Anordnungen ist das anders. Die Gruppen sind nicht randomisiert, 
weshalb auch nicht mit Sicherheit gesagt werden kann, ob die Wirkung 
(Wahl extremer Parteien) auf die vermutete Ursache (Arbeitslosigkeit) zu- 
rückzuführen ist, oder ob sich die „Experimentalgruppe“ (Arbeitslose) in 
anderen Merkmalen (z. B. Schulbildung) von der „Kontrollgruppe“ (Nicht- 
Arbeitslose) unterscheidet, die ebenfalls einen Einfluss auf die die abhän- 
gige Variable (Wahl extremer Parteien) ausüben. Auch die zeitliche Rei- 
henfolge der Variablen ist in Ex-post-facto-Anordnungen (zu Ausnahmen 
siehe Abschnitt 2.4) häufig unklar. Im Beispiel kann man davon ausge- 
hen, dass Arbeitslosigkeit möglicherweise das Wahlverhalten beeinflusst, 
während die umgekehrte Wirkungsrichtung unplausibel ist. 
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Drittvariablenkontrolle 


Wird bei einem Ex-post-facto-Design ein statistischer Zusammenhang 
(Korrelation) zwischen zwei Merkmalen X und Y festgestellt, so muss 
deshalb kontrolliert werden, ob die Ausprägung von Y tatsächlich auf X 
zurückgeführt werden kann (d.h. ein kausaler Einfluss von X naheliegt) 
oder ob alternative Erklärungen für Y existieren. Der Einfluss „dritter“ 
(alternativer) Merkmale Z muss also geprüft werden. Für dieses Verfah- 
ren hat sich der Begriff Drittfaktor- oder Drittvariablenkontrolle eingebür- 
gert. Mit der Drittvariablenkontrolle soll also verhindert werden, dass wir 
eine korrelative Beziehung (einen statistischen Zusammenhang) für eine 
kausale Beziehung halten. Dabei muss man sich im klaren sein, dass Kau- 
salität in Ex-post-facto-Designs nicht empirisch „bewiesen“ werden kann. 
Allerdings können die zeitliche Abfolge der Variablen und die Kontrolle 
von Drittvariablen eine kausale Interpretation eines statistischen Zusam- 
menhangs nahelegen. Die Kontrolle von Drittvariablen setzt voraus, dass 
Hypothesen über den Einfluss dritter Merkmale vorhanden sind und auch 
entsprechende Daten zur Verfügung stehen. Letzteres stellt insbesondere 
bei Sekundärdatenanalysen ein Problem dar. Es kann also nicht ausge- 
schlossen werden, dass relevante Drittvariablen nicht kontrolliert wurden. 
Allerdings können kausale Hypothesen abgelehnt werden, etwa dann, wenn 
eine Korrelation bei Kontrolle einer Drittvariablen verschwindet (Schein- 
korrelation oder Scheinkausalität). 


Technisch wird eine Drittvariablenkontrolle bei Merkmalen mit wenigen 
Ausprägungen ausgeführt, indem getrennt für jede Ausprägung der Dritt- 
variablen Z der Zusammenhang zwischen X und Y ermittelt wird. Die 
Ausprägung der Drittvariablen wird dadurch konstant gehalten. In Ta- 
belle 2.1 ist der Zusammenhang zwischen der Schulbildung X und einer 
geringfügigen Beschäftigung Y (vgl. Bäcker 2007) wiedergegeben. Formal 
höher Gebildete sind prozentual in geringerem Umfang in Mini-/Midi-Jobs 
tätig, wie man im oberen Teil der Tabelle sehen kann. Der Unterschied be- 
trägt 5 Prozentpunkte. Splittet man die Tabelle nach dem Geschlecht (Z) 
auf, dann ändern sich allerdings die Zusammenhänge. Bei Männern (Z1) 
übt die Schulbildung (X) keinen Einfluss auf die Beschäftigungsform (Y) 
aus. Lediglich 3% der Männer sind (unabhängig von der Schulbildung) 
geringfügig erwerbstätig. Bei Frauen (Z2) sieht das Bild ganz anders aus. 
Ein Viertel (!) der Frauen mit niedriger Schulbildung (maximal Haupt- 
schulabschluss) sind geringfügig beschäftigt, während die geringfügige Be- 
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schäftigung bei Frauen mit mittlerer und höherer Bildung einen deutlich 
geringeren Stellenwert einnimmt (12%) (aber immer noch vier Mal höher 
ist als bei Männern). Bei Männern gibt es demnach keinen Zusammenhang 
zwischen X und Y, bei Frauen einen starken. 


Tabelle 2.1: Schulbildung und geringfügige Beschäftigung 2006 


X 

Schulbildung 
Mini-/Midi-Job? | niedrig mittel/hoch 
nein 88% 93 % 
Gesamt Y ja 12%, 7% 
100 % 100% 
Befragte 2.780 6.692 
8 nein 97% 97% 
Zı = Männer Y a 3% 3% 
100% 100% 
Befragte 1.648 3.370 
nein 74% 88% 
Zə = Frauen Y ja oe 12% 
100 % 100% 
Befragte 1.132 3.322 


Datengrundlage: Sozio-ökonomisches Panel (gewichtet), Welle W 


In diesem Beispiel handelt es sich um eine Interaktion, die immer dann 
vorliegt, wenn sich ein Zusammenhang (Schulbildung und geringfügige 
Beschäftigung) in Abhängigkeit von der Ausprägung einer dritten Varia- 
blen (Geschlecht) ändert. Außer der Interaktion können weitere Effekte 
auftreten, die hier nur idealtypisch beschrieben werden können (vgl. Ab- 
bildung 2.4, S. 30). Der Zusammenhang zwischen X und Y kann durch 
eine Drittvariable Z bedingt sein, die sowohl X als auch Y beeinflusst. 
Ein triviales Beispiel wäre ein positiver Zusammenhang zwischen der Kör- 
pergröße (X) und den Leistungen (Y) von Schülern, wie sie etwa mit den 
PISA-Untersuchungen erhoben werden. Die Körpergröße ist nicht ursäch- 
lich für die besseren Leistungen. Vielmehr erklärt das Alter der Schüler 
(Drittvariable Z) sowohl deren Körpergröße als auch deren Leistungen 
(längere Schulbildung). Nach Kontrolle des Alters müsste der Zusammen- 
hang zwischen der Körpergröße X und den Leistungen Y verschwinden 
(Abbildung 2.3). Man spricht hier von einer Scheinkorrelation oder bes- 


Untersuchungsanordnung 29 


ser von einer Scheinkausalität, denn die Korrelation zwischen X und Y 
besteht (ohne Kontrolle von Z) ja tatsächlich. 


Abbildung 2.3: Scheinkausalität 


Größe (X) Größe (X) 
Be 
+ Alter (Z) 
be 
Leistung (Y) Leistung (Y) 
ohne Kontrolle von Z mit Kontrolle von Z 


Möglich ist auch, dass X Z beeinflusst und Z wiederum Y, X also einen 
indirekten Effekt auf Y ausübt (X — Z — Y). Ein Beispiel ist der im sozi- 
alpsychologischen Modell des Wahlverhaltens postulierte Einfluss der als 
langfristig stabil konzeptualisierten Parteiidentifikation (PI) (vgl. Camp- 
bell et al. 1980). Die Parteiidentifikation dient als Filter der Wahrnehmung 
der Kandidaten (K). Kandidaten der präferierten Partei werden positiver 
wahrgenommen als Kandidaten anderer Parteien. Die Kandidatenpräfe- 
renz beeinflusst die Stimmabgabe (Wahl). Liegt ausschließlich ein indi- 
rekter Effekt vor (PI — K — Wahl), dann verschwindet auch hier der 
ursprüngliche Zusammenhang zwischen der Parteiidentifikation und der 
Wahlentscheidung nach Kontrolle der Kandidatenpräferenz. Nach dem so- 
zialpsychologischen Modell übt die Parteiidentifikation zudem einen direk- 
ten Effekt auf die Wahlentscheidung aus (direkter und indirekter Effekt). 
Der Unterschied zwischen einem indirekten Effekt und einer Scheinkorre- 
lation lässt sich nur über die zeitliche Abfolge von X und Z klären. Bei 
einer Scheinkorrelation ist Z X und Y kausal vorgelagert, bei einem indi- 
rekten Effekt ist Z nur Y kausal vorgelagert. Von Multikausalität ist die 
Rede, wenn sowohl X als auch Z einen eigenständigen Einfluss auf die 
abhängige Variable Y ausüben. Zwei zentrale Determinanten der Lohn- 
höhe sind die schulische /berufliche Ausbildung und die Berufserfahrung. 
Schließlich kann ein Zusammenhang erst bei Kontrolle einer Drittvariablen 
auftauchen (scheinbare Nichtkorrelation, nicht abgebildet). Die Kontrolle 
von Drittvariablen ist demnach auch sinnvoll, wenn keine Korrelation fest- 
gestellt wurde. Zur Kontrolle von Drittvariablen werden in der Regel mul- 
tivariate Verfahren eingesetzt. Multivariate Verfahren sind - vereinfacht 
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ausgedrückt - statistische Methoden zur Analysen von Zusammenhängen 
zwischen mehr als zwei Variablen. Indirekte Effekte lassen sich mit Pfad- 
modellen quantifizieren (vgl. Reinecke 2005). Einen Überblick über die 
statistische Kontrolle von Drittvariablen bieten Agresti und Finlay (2008, 
Kapitel 10) und Benninghaus (2005). 


Abbildung 2.4: Beziehungen zwischen drei Variablen 
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Neben der Feststellung der Kausalität existiert in Ex-post-facto- 
Anordnungen ein weiteres Problem. Die Größe von „Experimental-“ und 
„Kontrollgruppe“ kann nicht so gezielt gesteuert werden, da im Gegensatz 
zu Experimenten die Gruppenaufteilung erst bei der Datenauswertung 
erfolgt. Aus diesem Grunde kommt es in Ex-post-facto-Anordnungen 
vor, dass Merkmalsausprägungen, die untersucht werden sollen, zu selten 
auftreten. Eine Untersuchung der Wähler der Republikaner mit dem 
ALLBUS 1998 scheitert schlicht daran, dass lediglich 53 der 3.432 Be- 
fragten eine Republikaner-Wahlabsicht angaben. Dieses Problem kann 
allerdings durch größere Stichproben oder geschichtete Auswahlverfahren 
(siehe Kapitel 9) gelöst werden. 
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2.4 Zeitdimension 


Hinsichtlich der Zeitdimension lassen sich Forschungsdesigns danach un- 
terscheiden, ob die Erhebung zu einem Zeitpunkt (Querschnittdesign) oder 
mehreren Zeitpunkten (Längsschnittdesign) stattfindet (vgl. Bijleveld und 
van der Kamp 1998). Zu den Längsschnittdesigns zählt das Trenddesign 
und das Paneldesign. 


e (Juerschnittdesign 
e Trenddesign 
e Paneldesign 


Bei einem Querschnittdesign erfolgt die Datenerhebung zu einem ein- 
zigen Zeitpunkt bzw. in einem kurzen Zeitintervall. Mit Querschnittdaten 
sind die in Kapitel 2.3 erwähnten Probleme der Überprüfung kausaler Hy- 
pothesen verbunden. 


Ein Trenddesign liegt vor, wenn dieselben Merkmale zu verschiede- 
nen Zeitpunkten an unterschiedlichen Stichproben gemessen werden. Eine 
Trendstudie lässt sich damit als Abfolge von mehreren Querschnittstudien 
auffassen. Um einen Trend feststellen zu können, müssen die Stichproben 
repräsentativ für die gleiche Grundgesamtheit sein (vgl. Kapitel 9). Bei den 
ALLBUS-Studien, den Politbarometern der Forschungsgruppe Wahlen, 
und den Eurobarometerumfragen handelt es sich um Trendstudien (siehe 
dazu $.37). Ein Beispiel für eine Trendauswertung der Politbarometer- 
Umfragen der Forschungsgruppe Wahlen ist in Abbildung 2.5 zu sehen. 
Angegeben ist die Entwicklung der Parteiidentifikation zwischen Januar 
1991 und November 1994 getrennt für ost- und westdeutsche Befragte. Auf 
der x-Achse ist die Zeit abgetragen, auf der y-Achse der jeweilige Anteil 
der Befragten, die sich mit einer Partei identifizieren. Die Linienzüge sind 
in den Monaten unterbrochen, in denen keine Politbarometer-Umfragen 
durchgeführt wurden. Im Mai 1991 gaben mehr als 70% der westdeut- 
schen Befragten an, sich mit einer Partei zu identifizieren, während der 
Anteil ostdeutscher Befragter mit Parteiidentifikation mit etwas mehr als 
60% knapp 10 Prozentpunkte niedriger liegt. Bis November 1993 nimmt 
der Anteil der Befragten mit Parteiidentifikation im Osten und Westen ab, 
um dann bis Herbst 1994 wieder anzusteigen. Man sieht, dass die Schwan- 
kungen des Anteils der Personen mit Parteiidentifikation im Osten der 
Republik deutlicher ausfallen als im Westen. 
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Abbildung 2.5: Parteiidentifikation zwischen 1991 und 1994 
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Quelle: Gehring und Winkler (1997), monatlich n-21000 


Mit den Politbarometerdaten kann nicht untersucht werden, inwieweit mit 
der Frage zur Parteiidentifikation tatsächlich langfristig stabile Bindungen 
an eine Partei erfasst werden, wie es das Konzept vorsieht. Über indivi- 
duelle Veränderungen der Parteiidentifikation im Zeitverlauf können keine 
Aussagen getroffen werden, da die monatlichen Umfragen auf unterschied- 
lichen Stichproben beruhen. Auf der Basis von Trenddaten lassen sich al- 
so Veränderungen im Aggregat (hier West bzw. Ost), die so genannten 
Nettoveränderungen, feststellen, nicht aber Veränderungen bei einzelnen 
Untersuchungseinheiten (Bruttoveränderungen, vgl. Engel und Reinecke 
1994, 6). 


Unter einem Paneldesign versteht man eine Erhebung derselben Merk- 
male zu verschiedenen Zeitpunkten an denselben Untersuchungseinheiten. 
Die einzelnen Befragungszeitpunkte werden als Wellen bezeichnet. In der 
Regel handelt es sich nur um wenige Wellen. Eine Ausnahme stellt das 
Sozio-Öökonomische Panel dar, das bereits seit 1984 einmal jährlich durch- 
geführt wird (vgl. zum Untersuchungsdesign S. 37). 
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In Abbildung 2.6 ist das Design einer Studie von Paul F. Lazarsfeld, Ber- 
nard Berelson und Hazel Gaudet zur US-amerikanischen Präsidentschafts- 
wahl 1940 dargestellt, die in Erie-County, einem Kreis in Ohio, durchge- 
führt wurde (vgl. Lazarsfeld et al. 1968). Für die Demokraten trat der 
Amtsinhaber Franklin D. Roosevelt an, der die Wahl gegen den republika- 
nischen Herausforderer Wendell L. Willkie für sich entscheiden konnte. Im 
Mai 1940 wurden 3.000 Personen befragt. Von diesen Befragten wurden 
600 Personen für das Hauptpanel (HP) ausgewählt und zu sechs weiteren 
Zeitpunkten befragt. Beim Hauptpanel handelt es sich also um ein sieben- 
welliges Panel. Zusätzlich wurden aus der Gesamtstichprobe drei weitere 
Stichproben à 600 Personen gezogen (Stichproben A, B und C). Diese 
Personen wurden aus methodischen Gründen — zur Kontrolle von Panel- 
effekten — außer im Mai noch zu je einem weiteren Zeitpunkt befragt, die 
Teilnehmer der Stichprobe A z.B. im Juli. Für Juli, August und Oktober 
existieren somit Ergebnisse einer Vergleichsstichprobe. 


Abbildung 2.6: Forschungsdesign der Untersuchung „The People’s 
Choice“ 
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Vgl. Lazarsfeld et al. (1968, S. 4) 


In Tabelle 2.2 wurde das in der Nachwahlbefragung (im November) an- 
gegebene Stimmverhalten mit der im Oktober angegebenen Wahlabsicht 
gekreuzt. (Wie man sieht, lagen die Republikaner in Erie-County vorne.) 
In der Summenspalte und Summenzeile lassen sich die Veränderungen im 
Aggregat, die Nettoveränderungen, beobachten: Im November stimmten 
von allen 483 Personen 48% (232) für die Republikaner, während dies 
im Oktober 47% (229) beabsichtigt hatten. Durch die Veränderungen im 
Aggregat wird das Ausmaß des Wandels auf der individuellen Ebene un- 
terschätzt: von den 483 Personen stimmen 418 Personen (215 + 144 + 59) 
genau so, wie sie es im Oktober beabsichtigten; dies entspricht 87%. 13% 
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der Befragten änderten zwischen den beiden Zeitpunkten ihre Präferenz 
(vgl. Lazarsfeld et al. 1968, xxiii); diese individuellen Veränderungen wer- 
den auch turnover genannt. So gingen 10 Personen, die im Oktober die 
Wahl der Republikaner beabsichtigten, nicht zur Wahl. 11 Personen wech- 
selten die Parteipräferenz: 7 von den Demokraten zu den Republikanern 
und 4 umgekehrt. Mit Paneldaten lassen sich also sowohl die Veränderun- 
gen auf der Aggregatebene (Nettoveränderungen) als auch die individuel- 
len Veränderungen (Bruttoveränderungen) untersuchen. 


Tabelle 2.2: Wahlabsicht und Stimmabgabe in Erie-County bei den Prä- 
sidentschaftswahlen in den USA, 1940 


Stimmabgabe | Wahlabsicht (Oktober) 

(November) | Rep. Dem. N.w. wn. | Summe 
Republikaner | 215 7 6 4 232 
Demokraten 4 144 0 12 160 
Nichtwahl 10 16 59 6 91 
Summe 229 167 65 22 483 


Rep. = Republikaner, Dem. = Demokraten, N. w. = Nichtwahl, w.n.— weiß 
nicht Quelle: Lazarsfeld et al. (1968, S. xxiii) 


Von Panelanalysen spricht man nur dann, wenn die Veränderungen der 
Merkmalsausprägungen von Untersuchungseinheiten im Zeitverlauf be- 
trachtet werden. Berücksichtigt man lediglich Aggregatveränderungen, 
dann handelt es sich um eine Trendanalyse auf der Basis von Paneldaten. 
Wertet man wie in Tabelle 2.1 lediglich eine Welle eines Panels aus, dann 
ist es eine Querschnittanalyse. Aufgrund der durch die unterschiedlichen 
Messzeitpunkte klaren zeitlichen Abfolge der Variablen eignen sich Pane- 
lanalysen besser zur Überprüfung kausaler Zusammenhänge als Ex-post- 
facto-Designs. Auch hier ist es jedoch notwendig, alternative Erklärungen 
durch die Kontrolle von Drittvariablen auszuschließen. 


Panelstudien sind mit besonderen methodischen Problemen konfrontiert: 
der Panelmortalität und Paneleffekten. Unter Panelmortalität wird die 
Tatsache verstanden, dass nicht alle Befragten der ersten Untersuchung 
auch bei den folgenden Untersuchungen wieder befragt werden können, sei 
es, weil sie umgezogen oder aus anderen Gründen nicht mehr erreichbar 
sind, die wiederholte Teilnahme verweigern oder zwischenzeitlich verstor- 
ben sind. Auf diese Weise verringert sich der Bestand eines Panels stetig. 
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Üblicherweise kann man davon ausgehen, dass der Bestand mit jeder Fol- 
geuntersuchung abnimmt, wobei die zweite Untersuchung normalerweise 
die höchsten Bestandsverluste aufweist. Dies kann dazu führen, dass Fra- 
gestellungen nicht mehr untersucht werden können, weil einfach zu wenige 
Personen eine interessierende Merkmalsausprägung aufweisen. Um der Pa- 
nelmortalität entgegenzuwirken, können besondere Maßnahmen ergriffen 
werden, die als Panelpflege bezeichnet werden. Die Panelpflege dient dazu, 
die Befragten zur weiteren Teilnahme zu motivieren und den Kontakt zu 
Befragten, die den Wohnsitz wechseln, nicht zu verlieren. Die Teilnehmer 
des Sozio-ökonomischen Panels erhalten ein kleines Geschenk, nehmen an 
einer bundesweiten Lotterie teil und werden über zentrale Ergebnisse der 
Umfrage informiert (vgl. Haisken-DeNew und Frick 2005, 27). 


Als Paneleffekte werden Auswirkungen der wiederholten Befragung auf 
die Meinungen und Einstellungen der Panelteilnehmer bezeichnet. Ein 
Problem tritt dann auf, wenn die Zeit zwischen den Befragungen sehr 
kurz ist und der Befragte sich an seine vergangenen Angaben erinnert. 
Dies kann zur Konsequenz haben, dass die Befragten versuchen, möglichst 
konsistent zu antworten. Die Stabilität der Antworten würde dann über- 
schätzt werden. Wiederholte Interviews können auch dazu führen, dass 
den Befragten ihre eigenen Ansichten und Meinungen bewusster werden, 
weil sie sich häufiger mit den Befragungsthemen beschäftigen. Panelef- 
fekte lassen sich kontrollieren, in dem zeitgleich zu einer Panelwelle eine 
Kontrollstichprobe mit denselben Messinstrumenten untersucht wird. Die 
Meinungen und Einstellungen der Panelteilnehmer können dann mit denen 
der Teilnehmer der Kontrollstichprobe verglichen werden. Genau dies war 
der Sinn der Kontrollstichproben A, B und © in der Studie von Lazarsfeld 
et al. (1968) (vgl. Abbildung 2.6). Es zeigte sich, dass die Panelteilnehmer 
ihre Wahlentscheidung früher trafen als die Teilnehmer der Kontrollstich- 
proben (vgl. Lazarsfeld et al. 1968, xv). 


Den Designs entsprechend kann man zwischen Querschnittdaten, Zeitrei- 
hendaten und Paneldaten unterscheiden. Eine besondere Form von Da- 
ten stellen zudem Verlaufsdaten dar. Um Zeitreihendaten handelt es sich 
beispielsweise bei der Entwicklung des Anteils der Personen, die eine Par- 
teiidentifikation zwischen 1991 und 1994 in der Bundesrepublik aufwei- 
sen. Zeitreihendaten beziehen sich auf eine Einheit (Bundesrepublik) zu 
mehreren Zeitpunkten (1991-1994). Paneldaten sind Daten, die — wie er- 
wähnt — Informationen über individuelle Veränderungen beinhalten. Ver- 
laufsdaten geben zusätzlich Auskunft über die Länge eines Zeitintervalls 
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bis zum Eintritt eines Ereignisses, z.B. die Dauer bis zur Änderung der 
Parteiidentifikation oder die Dauer bis zur Aufnahme einer Beschäftigung 
nach Arbeitslosigkeit. Verlaufsdaten werden daher auch als Ereignisda- 
ten bezeichnet. Aus den Daten des Sozio-Öökonomischen Panels können 
Verlaufdaten generiert werden. Die Dauer der Parteiidentifikation, die im 
SOEP jährlich erfasst wird, bestimmt sich aus dem Zeitraum zwischen der 
erstmaligen Angabe der Identifikation mit einer bestimmten Partei bis zur 
eventuellen Aufgabe der Identifikation. Noch exaktere Angaben liefert das 
SOEP unter anderem für die Erwerbsbiographie. Die Befragten füllen ein 
so genanntes Kalendarium aus, indem für jeden Monat des der Befragung 
vorangegangenen Kalenderjahres der Erwerbsstatus rückwirkend erfasst 
wird. Die Dauer der Arbeitslosigkeit kann daher monatsgenau ermittelt 
werden. Mit einer Ereignisdatenanalyse (vgl. Blossfeld et al. 2007) der 
SOEP-Daten zeigen Schmitt-Beck et al. (2006), dass die Parteiidentifika- 
tion zwischen 1984 und 2001 nur bei einem kleinen Teil der Wähler über 
die gesamte Periode stabil war. 


Um Paneldaten oder Ereignisdaten zu erheben, muss man nicht zwangs- 
läufig dieselben Personen mehrmals befragen. Auch mit einem Quer- 
schnittdesign kann man Panel- und Ereignisdaten gewinnen; durch Fragen, 
die sich auf die Vergangenheit beziehen (Retrospektivfragen bzw. Recall- 
Fragen). Erhebt man Angaben zum aktuellen Wahlverhalten und dem 
Wahlverhalten bei der vorangegangenen Wahl, dann hat man Paneldaten 
(siehe unten) erhoben, mit denen Wechselwahlverhalten untersucht wer- 
den kann. Allerdings stellen retrospektive Fragen hohe Ansprüche an die 
Erinnerungsfähigkeit des Befragten. Diese wird umso besser sein, je kür- 
zer die Ereignisse zurückliegen und je wichtiger diese für den Befragten 
sind. Daten zur Biographie müssten beispielsweise relativ präsent sein und 
daher auch zuverlässig abgefragt werden können. Einstellungen oder Mei- 
nungen können mit Retrospektivfragen kaum zuverlässig erfasst werden. 
Zudem besteht die Gefahr, dass Befragte Widersprüche zwischen vergan- 
genen und gegenwärtigen Einstellungen aufzulösen versuchen, in dem sie 
vergangene Finstellungen den aktuellen „anpassen“. Auch bei Angaben 
zum Wahlverhalten bei einer früheren Wahl stellt sich also die Frage, ob 
diese korrekt sind (vgl. Schoen 2000). 
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Forschungsdesigns einiger sozialwissenschaftlicher 
Erhebungen 


ALLBUS Die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften 
- ALLBUS - wird von der GESIS, Arbeitsbereich Dauerbeobachtung 
(früher: Zentrum für Umfragen, Methoden und Analysen, ZUMA), 
seit 1980 durchgeführt. In zweijährigen Abständen werden ca. 3.000 
Befragte zu sozialwissenschaftlich interessanten Themen befragt. Es 
handelt sich hier um eine Querschnittbefragung, die sich für Trend- 
studien eignet, da ein Teil der Fragen bereits mehrmals erhoben wur- 
de. Eine Ausnahme vom Befragungsrhythmus bildete die 1991 erho- 
bene ALLBUS-Basisumfrage, wo erstmals Personen in OÖstdeutsch- 
land mit in die Befragung aufgenommen wurden (vgl. Alba et al. 
2000; Braun und Mohler 1998, 1994). 

Eurobarometer Das Eurobarometer ist eine im Auftrag der Kommission 
der Europäischen Union seit 1974 zweimal jährlich durchgeführte Be- 
fragung in den Ländern der Europäischen Union. Ebenso wie beim 
Politbarometer und dem ALLBUS handelt es sich hier um Quer- 
schnittbefragungen, die für Trendstudien verwendet werden können. 
Das Eurobarometer eignet sich sehr gut für vergleichende Analysen, 
da in jedem Land mit weitgehend demselben Fragebogen gearbeitet 
wird. Mit Ausnahme Luxemburgs werden in jedem Land ca. 1.000 
Personen befragt. 

Politbarometer Das Politbarometer wird im Auftrag des ZDF seit 1977 
von der FORSCHUNGSGRUPPE WAHLEN in Mannheim durchgeführt. 
Es handelt sich um eine monatliche Querschnittbefragung von ca. 
1.250 Personen. Einzelne Ergebnisse werden einmal im Monat im 
ZDF verbreitet und sind über Internet abrufbar. Die erhobenen Da- 
ten werden an das Zentralarchiv für empirische Sozialforschung (ZA) 
in Köln weitergegeben, wo sie aufbereitet und für wissenschaftliche 
Zwecke zur Verfügung gestellt werden. Wegen des immer gleichen 
Designs und der Verwendung derselben Fragen eignet sich das Po- 
litbarometer ausgezeichnet für Trendstudien. 

SOEP Das Sozio-ökonomische Panel (SOEP) ist die umfangreichste Pa- 
nelstudie in der Bundesrepublik. Es handelt sich um eine Haushalts- 
stichprobe, bei der alle Mitglieder eines Haushaltes befragt werden, 
die im Befragungsjahr mindestens 17 Jahre alt sind oder werden. 
Beginnend 1984, wurden ca. 12.000 Personen aus 6.000 Haushal- 
ten (Stichprobe A „Deutsche“ und B „Ausländer“) einmal jährlich 
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befragt, seit 1990 auch in Ostdeutschland (Stichprobe C). Eine we- 
sentlicher Vorteil des SOEP ist die große Ausländerstichprobe (Stich- 
probe B), die detaillierte Analysen ermöglicht, und die Erfassung 
der neueren Formen von Zuwanderung (Stichproben D1/D2). Inzwi- 
schen wurde das SOEP um weitere Stichproben ergänzt (vgl. Tabel- 
le 2.3). Durch die Auffrischung des Panels wird die Panelmortalität 
aufgefangen. Die Auffrischung dient zudem zur Sicherstellung der 
„Repräsentativität“ des Panels, da die ursprünglichen Stichproben 
zwar die Bevölkerung im Jahre 1984 repräsentieren, der Verände- 
rung der Bevölkerungsstruktur aber nicht Rechnung tragen. 


Tabelle 2.3: Stichprobenstruktur des Sozio-ökonomischen Panels 


Stichprobe Start in Haushalte 
A Westdeutsche 1984 4.528 
B Ausländer 1984 1.393 
C Ostdeutsche 1990 2.179 
D1/D2 Zuwanderer 1994/1995 522 
E Erneuerungsstichprobe 1998 1.067 
F Innovationsstichprobe 2000 6.052 
G Hocheinkommensstichprobe 2002 1.224 
H Auffrischungsstichprobe 2006 1.506 


Im SOEP werden unter anderem detaillierte Angaben zur Demogra- 
phie der Befragten, zu deren sozialer und ökonomischer Situation 
im Haushaltskontext, zu deren Erwerbssituation und Einkommens- 
verläufen erhoben. Neben einer Reihe von Indikatoren, die für so- 
ziologische und ökonomische Fragestellungen relevant sind, enthält 
das SOEP einige originär politikwissenschaftliche Merkmale, wie die 
bereits erwähnte Frage nach der Parteiidentifikation. Mit der Durch- 
führung des SOEP ist eine Projektgruppe am Deutschen Institut 
für Wirtschaftsforschung (DIW) in Berlin beauftragt (vgl. Hanefeld 
1987; Haisken-DeNew und Frick 2005). 


Adressen der genannten Institutionen 


CSDM Center for Survey Design and Methodology der GESIS (früher: 


Zentrum für Umfragen, Methoden und Analysen, ZUMA), B 2,1, 
68159 Mannheim; Postanschrift: Postfach 122155, 68072 Mannheim; 
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Tel.: 0621/1246-0, Fax: -100. 
Internet: http: //www.gesis.org/dienstleistungen/methoden/ 

DIW Deutsches Institut für Wirtschaftsforschung: Königin-Luise-Str. 5, 
14195 Berlin; Tel.: 030/89789-0, Fax: 030/89789-200. 

Internet: http: //www.diw-berlin.de/ 

FDZ Institut für Arbeitsmarkt- und Berufsforschung der Bundesagentur 
für Arbeit - Forschungsdatenzentrum -, Regensburger Str. 104, 90478 
Nürnberg; Tel.: 0911/179-1752, Fax: 0911/179-1728. 

Internet: http://www. fdz.iab.de/ 

FGW Forschungsgruppe Wahlen: N 7, 13-15, 68161 Mannheim; Postan- 
schrift: Postfach 101121, 68011 Mannheim; Tel.: 0621/ 1233-0, Fax: 
0621/1233-199. 

Internet: http://www. forschungsgruppe..de/ 

GESIS, Abteilung Datenarchiv und Datenanalyse (früher: Zentralar- 
chiv für empirische Sozialforschung): Bachemer Str. 40, 50931 Köln; 
Postanschrift: Postfach 410960, 50869 Köln; Tel.: 0221/47694-0, 
Fax: -44. 

Internet: http: //www.gesis.org/dienstleistungen/daten/ 

StBA Statistisches Bundesamt: Gustav-Stresemann-Ring 11, 65180 Wies- 
baden; Tel.: 0611/75-1, Fax: 0611/724000. 

Internet: http: //www.destatis.de/ 
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Aufgaben zu Forschungsdesigns 


1. 


2; 


Charakterisieren Sie den Unterschied zwischen Individual- und Aggre- 
gatdaten! 

Sie haben vom Statistischen Bundesamt in Wiesbaden die Wahler- 
gebnisse der Bundestagswahl 1994 und die Arbeitslosenquote für die 
Bundestagswahlkreise erhalten. In Ihrer Untersuchung stellen Sie nun 
einen Zusammenhang zwischen der Höhe der Arbeitslosenquote und 
dem Anteil der Stimmen für die Republikaner fest. Welchen Fehl- 
schluss können Sie bei Analyse der Daten begehen und warum? 


. Worin unterscheiden sich die behandelten Längsschnittanalysen und 


welche Vor- bzw. Nachteile haben diese”? 


. Im ALLBUS wurden die Einstellungen zur innerfamilialen Arbeits- 


teilung seit 1982 unter anderem mit der Aussage „Es ist für alle Be- 
teiligten viel besser, wenn der Mann voll im Berufsleben steht und 
die Frau zu Hause bleibt und sich um den Haushalt und die Kinder 
kümmert“ erfasst. In der folgenden Tabelle sind die Anteile der west- 
deutschen Befragten, die der Aussage zustimmten (stimme voll und 
ganz zu/stimme eher zu) bzw. sie ablehnten (lehne ab/lehne voll und 
ganz ab), wiedergegeben: 


1982 1992 1996 2000 2004 
stimme zu 70% 56% 51% 50% 42% 
stimme nicht zu 30% 44% 49% 50% 58% 
100% 100% 100% 100% 100% 
Anzahl der Befragten | 2.910 2.325 2.326 2.425 1.936 


Beschreiben Sie die inhaltliche Aussage der Tabelle. Wie haben 
sich die Einstellungen im Zeitverlauf geändert? Handelt es sich um 
Querschnitt- und/oder um Längsschnittdaten? Begründen Sie Ihre 
Antwort! 


. Mit welchem Untersuchungsdesign kann man kausale Zusammenhänge 


feststellen? 


. Zählen die Volkszählungsdaten zu den Individual- oder Aggregatda- 


ten? 


3 Messen 


3.1 Messen in der empirischen Sozialforschung `... 41 
EE 43 
3.3 Skalierungsverfähren „u... nennen nn 47 
3.4 Gütekriterien einer Messung `... 61 


3.1 Messen in der empirischen Sozialforschung 


Wie wir in Kapitel 1 erläutert haben, entscheidet über die Aufrechterhal- 
tung oder das Verwerfen einer Theorie oder einer Hypothese die Konfron- 
tation mit der Realität. Das Messen spielt daher eine (wenn nicht sogar 
die) zentrale Rolle innerhalb der empirischen Sozialforschung. Bevor so- 
ziale Phänomene gemessen werden können, sind jedoch eine Reihe von 
Vorüberlegungen notwendig. 


Ausgangspunkt einer Untersuchung sind Theorien und die in ihnen enthal- 
tenen Hypothesen. Zunächst müssen die in den Theorien bzw. Hypothe- 
sen enthaltenen Begriffe präzise definiert sein. Bevor also ein Begriff wie 
„Rechtsextremismus“ gemessen werden kann, muss geklärt werden, was 
darunter verstanden wird und welche Dimension(en) der Begriff beinhal- 
tet. Anschließend muss der Begriff operationalisiert werden. Unter Ope- 
rationalisierung werden alle Forschungsvorgänge („Operationen“) verstan- 
den, die notwendig sind, um festzustellen, „ob und in welchem Ausmaß der 
mit dem Begriff bezeichnete Sachverhalt in der Realität vorliegt“ (Krom- 
rey 2006, 189). 


In Kapitel 1 wurden die CASMIN-Klassifikation und die Zahl der Schul- 
jahre als mögliche Operationalisierungen von Bildung eingeführt. Bildung 
könnte genau so gut über einen Wissenstest erfasst werden. Die CASMIN- 
Skala erfasst schulische und berufliche Zertifikate, ein Wissenstest tat- 
sächlich vorhandene Kompetenzen im getesteten Bereich. Solche Kompe- 
tenzmessungen werden im Rahmen der PISA-Untersuchungen inzwischen 
regelmäßig bei Schülerinnen und Schülern durchgeführt. Welche Operatio- 
nalisierung angemessen ist, hängt von der Fragestellung der Untersuchung 
ab. 


U. W. Gehring, C. Weins, Grundkurs Statistik für Politologen und Soziologen, 
DOI 10.1007/978-3-531-91879-2_3, 
© VS Verlag für Sozialwissenschaften | GWV Fachverlage GmbH, Wiesbaden 2009 
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Was wird nun in den Sozialwissenschaften unter „Messen“ verstanden? Wir 
begnügen uns im Folgenden mit einer „weichen“ (und nicht ganz präzisen) 
Begriffsbestimmung des Messens, ohne auf die axiomatische Messtheorie 
zurückzugreifen (vgl. Kromrey 2006; Orth 1974). 


Beim Messen geht es — wie Stevens (1946) definiert hat — um die Zuord- 
nung von Zahlen (oder Symbolen) zu Objekten nach bestimmten 
Regeln. „Nach bestimmten Regeln“ soll heißen, dass die Zuordnung so er- 
folgen muss, dass die Beziehungen zwischen den Zahlen die Beziehungen 
zwischen den Objekten strukturtreu widerspiegeln (nicht umgekehrt!). 
Die Beziehungen zwischen den Objekten werden empirisches Relativ ge- 
nannt, die Beziehungen zwischen den Zahlen numerisches Relativ (Bezie- 
hungen = Relationen). Zum Messvorgang gehören damit drei Komponen- 
ten: Das empirische Relativ, das numerische Relativ und eine Abbil- 
dungsvorschrift, die eine korrekte (strukturtreue) Zuordnung der Zahlen 
zu den Eigenschaften von Objekten ermöglicht (vgl. Abbildung 3.1). Diese 
drei Komponenten bilden eine Skala. 


Abbildung 3.1: Messen — Schematische Darstellung 


Hauptschule 


Realschule 


Hauptschule 


Gymnasium 


Numerisches Relativ Empirisches Relativ 


Objekte haben in der Regel viele Eigenschaften, anhand derer sie in Be- 
ziehung gesetzt werden können. Bei Personen können dies z.B. das Ge- 
schlecht, die Bildung, das Einkommen, die Stärke des Politikinteresses 
oder die Wahlabsicht sein. Will man das Geschlecht messen, so könnte die 
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Abbildungsvorschrift lauten: Ordne den Merkmalsausprägungen männlich 
und weiblich die Zahlen 1 und 2 zu. Die konkrete Zuordnung ist beliebig: 
Männlich kann 1 sein und weiblich 2 oder umgekehrt. Die Zuordnung muss 
aber innerhalb einer Untersuchung konstant erfolgen. Über eine Ordnung 
macht die obige Abbildungsvorschrift keine Aussage, da im empirischen 
Relativ keine Ordnung vorliegt. Die Abbildungsvorschrift für das Politik- 
interesse würde dagegen lauten: Ordne die Zahlen so zu, dass die Rangfolge 
in der Stärke des Politikinteresses erhalten bleibt, also beispielsweise bei 
keinem Interesse 0, schwachem Interesse 1 und starkem Interesse 2. Hier 
ist eine Ordnung notwendig, um die Beziehungen im empirischen Relativ 
strukturtreu abzubilden. Das heißt: Die Abbildungsvorschrift ist von der 
Art des Merkmals im empirischen Relativ abhängig und bestimmt 
das Messniveau bzw. Skalenniveau. 


3.2 Skalenniveaus 


In Anlehnung an Stevens (1946) werden in den Sozialwissenschaften vier 
Skalenniveaus (auch: Messniveau) unterschieden: 


Nominalskala 
Ordinalskala 
Intervallskala 
Ratioskala 


a ee 


Außerdem ist die Berücksichtigung einer weiteren Skala sinnvoll: 


5. Absolutskala 


Das niedrigste Messniveau weist die Nominalskala auf, das höchste die 
Absolutskala. Die höheren Skalen besitzen die Eigenschaften al- 
ler niedrigeren Skalen. Nominal- und Ördinalskalen werden auch als 
qualitative oder nicht-metrische Skalen bezeichnet, Intervall-, Ratio- und 
Absolutskalen als quantitative oder metrische Skalen. 


1. Nominalskala: Können die Ausprägungen von Merkmalen lediglich 
im Hinblick auf Gleichheit oder Ungleichheit unterschieden wer- 
den, dann liegt nominales Skalenniveau vor. Typische Beispiele hier- 
für sind das Geschlecht, die Parteipräferenz, die Haarfarbe oder die 
Religionszugehörigkeit. Welche Zahlen welcher Ausprägung zugeord- 
net werden, ist beliebig, solange für jede Merkmalsausprägung eine 
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eigene Zahl verwendet wird. Ob Männer mit 1 und Frauen mit 2 oder 
erstere mit 20 und letztere mit 17 bezeichnet werden, ist vollkommen 
unerheblich. Allerdings darf nur die Ungleichheit zwischen den Zahlen 
interpretiert werden. Die Aussage Frauen seien „doppelt so gut“ wie 
Männer, weil Frauen mit 2 und Männer „nur“ mit 1 kodiert wurden, 
ist sinnlos, da die Zahlenzuordnung beliebig ist. 


. Ordinalskala: Von ordinalem Skalenniveau spricht man, wenn die 


Merkmalsausprägungen zusätzlich zur Gleichheit/Ungleichheit noch 
eine Reihenfolge aufweisen. Bekannt ist nur die Reihenfolge; man 
weiß aber nicht, wie groß die Abstände zwischen den Merkmalsausprä- 
gungen sind. Es wurde bereits die Stärke des Politikinteresses genannt, 
andere Beispiele für ordinalskalierte Merkmale sind die Schulbildung 
und die Schulnoten. Die Reihenfolge der Merkmalsausprägungen muss 
sich in der Reihenfolge der Zahlen widerspiegeln. Die Zahlen müssen 
aber nicht unmittelbar aufeinander folgen, obwohl dies in der Regel — 
wie z. B. bei den Schulnoten — der Fall ist. 


. Intervallskala: Merkmale sind intervallskaliert, wenn deren Ausprä- 


gungen nicht nur eine Rangfolge (und damit auch Unterschiedlichkeit) 
aufweisen, sondern auch Abstände zwischen Ausprägungen sinnvoll 
interpretiert werden können . Typische Beispiele sind die Temperatur- 
messung in Celsius oder Fahrenheit und die Kalenderzeitrechnung. Die 
Abstände zwischen aufeinanderfolgenden Ausprägungen (die Interval- 
le) sind bei einer Intervallskala gleich groß (konstant). Der Altersun- 
terschied zwischen einer Person, die 1930 geboren wurde und einer 
Person, die 1929 zur Welt kam, ist genauso groß wie die zwischen dem 
Geburtsjahrgang 1951 und 1950. Intervallskalen besitzen im Gegen- 
satz zu den nachfolgend beschriebenen Ratioskalen aber keinen natür- 
lichen Nullpunkt. Aus diesem Grund sind Verhältnisse zwischen den 
Zahlen auch nicht interpretierbar. Besonders deutlich wird dies an der 
Zeitrechnung: Als wir nach christlicher Zeitrechnung (gregorianischer 
Kalender) den Jahreswechsel 2008/2009 begangen haben, befanden 
wir uns nach jüdischer Zeitrechnung mitten im Jahr 5769 und nach 
islamischer Zeitrechnung im Jahr 1430. Das Jahr 0 existiert zwar bei 
allen drei Zeitrechnungen, es sind jedoch rein definitorische Festle- 
gungen und keine „echten“ Nullpunkte. Der Beginn der Zeitrechnung 
ist im christlichen Kalender an der Geburt Christi orientiert, während 
die muslimische Zeitrechnung mit der Auswanderung Mohammeds von 
Mekka nach Medina beginnt. Künstliche Nullpunkte sind leicht dar- 
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an zu erkennen, dass das jeweilige Merkmal negative Ausprägungen 
besitzen kann, wie z.B. 1000 vor Christus. 


. Ratioskala: Das einfachste Erkennungszeichen ratioskalierter Merk- 


male ist die Existenz eines natürlichen (echten) Nullpunktes, der 
erst den Vergleich von Verhältnissen zwischen Skalenwerten er- 
möglicht. Das Alter (nicht Geburtsjahr!), das Einkommen und die 
Temperaturmessung in Kelvin (nicht Celsius oder Fahrenheit!) sind 
Eigenschaften auf Ratioskalenniveau. Hier können Verhältnisse inter- 
pretiert werden: Ein 50jähriger ist doppelt so alt wie ein 25jähriger. 
Die Temperaturmessung nach Kelvin ist im Gegensatz zu Celsius und 
Fahrenheit eine Ratioskala, da diese einen natürlichen Nullpunkt hat 
(bei -273,15 °C). Null Kelvin heißt: Abwesenheit von Temperatur bzw. 
Molekularbewegung, während 0 °Celsius eine definitorische Festlegung 
durch den Gefrierpunkt des Wassers ist. Bei 300 Kelvin ist es also tat- 
sächlich doppelt so warm wie bei 150 Kelvin. Ratioskalierte Merkmale 
können keine negativen Werte annehmen. Es gibt weder ein negatives 
Einkommen noch ein negatives Alter und auch keine negative Tempe- 
ratur in Kelvin. 

Ratioskalierte Merkmale besitzen „künstliche“ Skaleneinheiten, was 
sich am Beispiel des Einkommens gut verdeutlichen lässt, das bis vor 
kurzem in DM und Pfennig, neuerdings aber in Euro und Cent gemes- 
sen wird. Dies unterscheidet Ratioskalen von Absolutskalen. 


. Absolutskala: Absolutskalen besitzen zusätzlich zu den bisher disku- 


tierten Eigenschaften der anderen Skalen eine natürliche Skalenein- 
heit. Die Zuordnung der Zahlen ist durch die Beziehungen im empiri- 
schen Relativ eindeutig festgelegt. Absolutskalierte Merkmalsausprä- 
gungen besitzen z. B. alle Zählvariablen, wie die Semesterzahl, die Zahl 
der Bürgerkriege seit dem Zweiten Weltkrieg usw. 


Bei nominal- oder ordinalskalierten Merkmalen handelt es sich immer um 
diskrete Merkmale, während metrische Merkmale diskret oder kontinuier- 
lich sein können. Von einem diskreten Merkmal spricht man, wenn dieses 
abzählbar viele Werte annehmen kann. Als kontinuierliche Merkmale wer- 
den Merkmale bezeichnet, die in jedem beliebig kleinen Intervall unend- 
lich (überabzählbar) viele Werte annehmen können. Die Semesterzahl ist 
beispielsweise ein diskretes, metrisches Merkmal; das Alter ein kontinu- 
ierliches, metrisches Merkmal. Kontinuierlich heißt zwar, dass das Merk- 
mal unendlich viele Werte annehmen kann, nicht aber dass diese auch 
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gemessen werden können. So werden nur bestimmte Werte des Alters, 
z. B. ganze Jahre, gemessen; zwischen diesen gemessenen Werten existieren 
aber unendlich viele andere Werte. Statt von diskreten Merkmalen spricht 
man auch von kategorialen Merkmalen. Als dichotom werden Merkmale 
bezeichnet, die nur zwei Ausprägungen annehmen können, wie das Ge- 
schlecht. Merkmale mit mehr als zwei Ausprägungen werden häufig auch 
polytom genannt. 


Die Einteilung in Skalenniveaus ist von besonderer Bedeutung für die sta- 
tistische Auswertung der Daten. Je höher das Skalenniveau, umso 
mehr statistische Verfahren sind zulässig. So ist die Berechnung ei- 
nes arithmetischen Mittels bei Nominalskalen und Ordinalskalen nicht er- 
laubt, da die Abstände zwischen den vergebenen Zahlen keine Bedeutung 
haben, die über die Unterschiedlichkeit bzw. die Ordnung hinausgeht. Von 
diesem Standpunkt ließe sich auch die Berechnung einer Durchschnittsno- 
te kritisieren, da Schulnoten nur Ordinalskalenniveau aufweisen. Sie sagen 
ja nur etwas über einen Rang aus, nicht aber über die Abstände zwischen 
den Zahlen. Bei der Datenanalyse werden ordinalskalierte Merkmale al- 
lerdings häufig wie intervallskalierte Merkmale behandelt, um bestimmte 
statistische Verfahren anwenden zu können (vgl. dazu Allerbeck 1978). 
Man unterstellt dann, dass die Abstände der einzelnen Ausprägungen auf 
der Ordinalskala gleich sind. Multivariate Analyseverfahren (vereinfacht 
ausgedrückt: Verfahren, mit deren Hilfe gleichzeitig mehr als zwei Merk- 
male analysiert werden können) setzen häufig mindestens intervallskalierte 
Daten voraus — erwähnt seien hier stellvertretend die lineare Regressions- 
analyse, die Faktorenanalyse und die Clusteranalyse (vgl. Backhaus et al. 
2003). In den vergangenen Jahrzehnten wurden statistische Verfahren zur 
Analyse nominaler und ordinaler Daten (weiter)entwickelt und sind heute 
in den gängigen Statistik-Paketen implementiert (SPSS, Stata, SAS) (vgl. 
Andreß et al. 1997; Long 1997; Agresti 1996). 


Welches Skalenniveau eine Variable annimmt, hängt neben den beobacht- 
baren Beziehungen zwischen den Objekten von der gewählten Operationa- 
lisierung ab. Misst man das Alter der in Mainz lehrenden Professorinnen 
und Professoren in Jahren, dann erhält man ein ratioskaliertes Merkmal. 
Genauso gut könnte man dem/der ältesten Professor /in die höchste Zahl 
aus einer beliebigen Reihe von Zahlen zuweisen, der/dem zweitältesten 
die zweithöchste usw. In diesem Fall hat man Alter auf Ordinalskalenni- 
veau gemessen. Schließlich könnte man das Alter noch nominal messen, 
indem man nur zwischen Professorinnen und Professoren, die in der Zeit 
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des Nationalsozialismus geboren wurden, und anderen unterscheidet und 
den Ersteren z.B. eine 1, den Letzteren eine 2 zuweist. 


Generell ist es sinnvoll, auf dem höchstmöglichen Skalenniveau zu messen, 
da höhere Skalenniveaus immer mehr Informationen enthalten als niedri- 
gere. Hat man das Alter der Professorinnen und Professoren in Jahren 
gemessen, so kann man exakt angeben, um wie viele Jahre Professor /in 
X älter als Professor /in Y ist, während dies bei den anderen beiden Mes- 
sungen nicht möglich ist. Zudem ist eine Verminderung des Skalennive- 
aus im Nachhinein immer möglich, nicht aber eine Erhöhung. Wählt man 
ein niedrigeres Skalenniveau als möglich, dann reduziert sich von Vorne- 
herein die Zahl der zulässigen statistischen Verfahren. Gelegentlich kann 
es durchaus sinnvoll sein, auf einem niedrigeren Skalenniveau zu messen: 
Um die Antwortbereitschaft zu erhöhen, fragt man in Umfragen häufig 
nicht nach dem exakten Einkommen (Ratioskala), sondern gibt Kategori- 
en vor (weniger als 500 Euro, 500 bis 1.000 Euro, ..., 5.000 Euro und mehr; 
Ordinalskala). Im Allbus wird das monatliche Nettoeinkommen zunächst 
offen abgefragt. Befragten, die die Auskunft verweigern, wird dann unter 
Zusicherung der Anonymität der Befragung eine Liste mit Einkommens- 
kategorien vorgelegt (vgl. GESIS 2007, 274). 


3.3 Skalierungsverfahren 


Zur Messung komplexer Sachverhalte werden häufig mehrere Indikatoren 
herangezogen. So wird es kaum möglich sein, Konstrukte wie „Rechts- 
extremismus“ oder „Ausländerfeindlichkeit“ über einen einzigen Indikator 
angemessen zu erfassen. Die Verwendung mehrerer Indikatoren zur Mes- 
sung einer interessierenden Dimension hat den Vorteil, dass die Messung 
zuverlässiger wird, wenn die Messfehler sich ausgleichen. Stellt sich nach 
einer Untersuchung heraus, dass ein Indikator den zu messenden Sach- 
verhalt nicht gut abbildet, dann ist das bei Verwendung mehrerer Indi- 
katoren kein so großes Problem. Vor allem ist bei Verwendung mehrerer 
Indikatoren deren Zuverlässigeit und Gültigkeit besser prüfbar (vgl. dazu 
Abschnitt 3.4). 


Liegen mehrere Indikatoren vor, dann benötigen wir Verfahren zur Her- 
stellung eines Messinstrumentes. Skalierungsverfahren sind nichts anderes 
als Verfahren zur Herstellung einer Skala aus mehreren Indikatoren. Auch 
mit einem Index können mehrere Indikatoren zusammengefasst werden. 
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Indizes und Skalen stellen in diesem Sinne „zusammengesetzte Messungen“ 
dar. Technisch gesprochen wird bei der Bildung eines Index/einer Ska- 
la aus mehreren Variablen eine neue Variable gebildet. Der Unterschied 
zwischen Skalen und Indizes besteht darin, dass bei Skalierungsverfahren 
die Dimensionalität der in die Skala eingehenden Indikatoren geprüft wird 
(vgl. Mayntz et al. 1978, 47). Indikatoren bilden nur dann eine Skala, wenn 
die Voraussetzungen des Skalierungsmodells (z. B. der Guttman-Skala) er- 
füllt sind. 


Bei einem Index werden Indikatoren nach einer bestimmten mathemati- 
schen Anweisung zusammengefasst. Welche mathematische Operation zur 
Berechnung angewendet wird, hängt von der Fragestellung ab. Meistens 
werden additive Indizes verwendet, d.h. die Werte der einzelnen Variablen 
werden zur Bildung des Index einfach summiert. Indizes werden häufig 
verwendet, wenn mehrere Indikatoren, die unterschiedliche Dimensionen 
messen, zu einem neuen Instrument zusammengefasst werden. So könn- 
te der sozioökonomische Status aus Indikatoren für die drei Dimensionen 
Bildung, Einkommen und Berufsprestige berechnet werden (vgl. Schnell 
et al. 2008, 167 ff.). 


Bestandteile einer Skala (bzw. ganz generell Bestandteile eines Fragebo- 
gens) werden als Items bezeichnet. Dabei kann es sich um Statements 
oder Fragen handeln. Die verschiedenen Skalierungsverfahren unterschei- 
den sich vor allem danach, welche Anforderungen die Items erfüllen müs- 
sen, und wie diese zu einem einzigen Skalenwert verarbeitet werden. Außer- 
dem können Skalierungsverfahren danach unterschieden werden, ob Per- 
sonen und/oder Variablen skaliert werden. 


An dieser Stelle wollen wir uns auf die Darstellung von zwei Skalen — der 
Likert- und der Guttman-Skala — beschränken. In älteren Studien findet 
man manchmal die Thurstone-Skala, die aber kaum Verwendung findet. 
Eine gute Darstellung dieser Skalierungsverfahren findet sich bei Melver 
und Carmines (1982). 


3.3.1 Likert-Skala 


Likert-Skalen werden in den Sozialwissenschaften zur Messung von Ein- 
stellungen eingesetzt. Beispiele für Likert-Skalen sind die Faschismus-, 
Antisemitismus- und Ethnozentrismus-Skala, die in der Untersuchung zum 
„Autoritären Charakter“ von Adorno, Frenkel-Brunswik, Levinson und 
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Sanford verwandt wurden (vgl. Adorno et al. 1950). Nehmen wir an, wir 
wollten eine Likert-Skala konstruieren, die „Ausländerfeindlichkeit“ messen 
soll. Zunächst müssen nun Indikatoren gefunden werden, die ausländer- 
feindliche Einstellungen messen. Jeder einzelne Indikator soll diesel- 
be Dimension messen, hier also negative Einstellungen zu Ausländern 
und möglichst nichts anderes. 


Um die Konstruktion einer Likert-Skala zu erläutern, wird auf vier im 
ALLBUS 2006 enthaltene Aussagen zur Messung ausländerfeindlicher Vor- 
urteile zurückgegriffen (Abbildung 3.2). Entwickelt man eine neue Skala, 
dann ist es sinnvoll, deutlich mehr Indikatoren als im Beispiel zu verwen- 
den. 


Abbildung 3.2: Messung ausländerfeindlicher Einstellungen 
1. Die in Deutschland lebenden Ausländer sollten ihren Lebensstil 
ein bisschen besser an den der Deutschen anpassen. 
2. Wenn Arbeitsplätze knapp werden, sollte man die in Deutsch- 
land lebenden Ausländer wieder in ihre Heimat zurückschicken. 
3. Man sollte den in Deutschland lebenden Ausländern jede politi- 
sche Betätigung in Deutschland untersagen. 


4. Die in Deutschland lebenden Ausländer sollten sich ihre Ehe- 
partner unter ihren eigenen Landsleuten auswählen. 


Bei der Likert-Skalierung wird den Befragten die Möglichkeit eingeräumt, 
die Zustimmung bzw. Ablehnung der Statements in abgestufter Form 
vorzunehmen (Rating-Format). Im oben genannten Beispiel reicht das 
Spektrum über sieben Stufen, von „Stimme überhaupt nicht zu“ bis „Stim- 
me voll und ganz zu“. Häufig werden bei einer Likert-Skala auch fünf Ant- 
wortalternativen vorgegeben: lehne stark ab, lehne ab, teils/teils, stimme 
zu, stimme stark zu. 


Die Zahlenzuordnung zu den Antwortalternativen erfolgt am sinn- 
vollsten so, dass eine starke Ausprägung auf der zu messenden Einstel- 
lung einen hohen Zahlenwert erhält und umgekehrt. Ausländerfeindli- 
chen Einstellungen werden also hohe Zahlenwerte zugeordnet, bei nicht- 
ausländerfeindlichen Einstellungen niedrige. Die Antwort „stimme voll und 
ganz zu“ gibt bei den Beispielitems immer eine ausländerfeindliche Ein- 
stellung wieder, d.h. die Fragen sind alle in die gleiche Einstellungsrich- 
tung „gepolt“ (gleichsinnig). Der Antwort „stimme voll und ganz zu“ wird 
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dementsprechend bei allen Aussagen die Zahl 7, der Antwort „stimme 
überhaupt nicht zu“ die Zahl 1 und den dazwischen liegenden Abstufungen 
die Zahlen 2 bis 6 zugeordnet. 


Die Beurteilung der Aussagen durch die Befragten findet sich in Abbil- 
dung 3.3. Der Aussage, Ausländer sollten ihren Lebensstil etwas besser 
an den der Deutschen anpassen, wurde am stärksten zugestimmt. Knapp 
50 % der Befragten stimmten der Aussage voll und ganz zu (Skalenwert 7). 
Am stärksten abgelehnt wurde die Aussage, Ausländer sollten Ihre Ehe- 
partner unter ihren Landsleuten auswählen. Mehr als 50% der Befragten 
lehnten die Aussage voll und ganz ab. Beide Items sind schief verteilt, die 
Aussage zur Lebensstilanpassung linksschief, die Aussage zu Ehepartnern 
rechtsschief. 


Abbildung 3.3: Einstellungen gegenüber Ausländern 
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Skala von 1, stimme überhaupt nicht zu, bis 7, stimme voll und ganz zu 
Daten: ALLBUS 2006, Westdeutsche, N=2.038 


Zustimmende Äußerungen geben hier bei allen vier Items negative Einstel- 
lungen gegenüber Ausländern wider. Es kann jedoch sinnvoll sein, positive 
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und negative Statements zu formulieren, um Zustimmungstendenzen kon- 
trollieren zu können. Unter Zustimmungstendenzen wird die Neigung von 
Befragten verstanden, Aussagen ohne Berücksichtigung ihres Inhalts zuzu- 
stimmen (vgl. auch Kapitel 4.1). Zustimmungstendenzen lassen sich dar- 
an erkennen, dass ein Befragter positiv wie negativ formulierten Aussagen 
zustimmt, was inhaltlich nicht plausibel ist. Ein positives Statement zu 
Ausländern wäre ein zusätzlichen Item wie „Die politischen Einflussmög- 
lichkeiten der in Deutschland lebenden Ausländer sollten gestärkt wer- 
den“. Zustimmung bedeutet hier gerade die Abwesenheit von negativen 
Einstellungen zu Ausländern. Will man positiv und negativ formulierte 
Aussagen zu einer Skala zusammenfassen, muss man darauf achten, dass 
dieselbe Zahl dieselbe Einstellung repräsentiert. Z. B. indem man bei po- 
sitiv formulierten Aussagen der Antwort „Stimme voll und ganz zu“ den 
Wert 1 (Abwesenheit von Ausländerfeindlichkeit) und der Antwort „Stim- 
me überhaupt nicht zu“ den Wert 7 (Ausländerfeindlichkeit) zuweist und 
die Abstufungen entsprechend rekodiert (umpolt). 


Die Konstruktion einer Likert-Skala lässt sich anhand der im ALLBUS 
2006 verwendeten Items veranschaulichen. Zur Vereinfachung werden aus- 
schließlich die 2.038 in Westdeutschland befragten Personen betrachtet, 
die alle vier Aussagen auf der siebenstufigen Skala beantwortet haben, also 
keinen einzigen fehlenden Wert (keine Angabe/weiß nicht) aufweisen.! Bei 
der Likert-Skala wird der Skalenwert aus der Summe aller (gleich gepolten) 
Items berechnet. Die Addition ist jedoch nur dann gerechtfertigt, wenn die 
Items eine einzige Dimension messen. Anhand der Item-Analyse wird 
entschieden, welche Items geeignet sind und damit in die endgültige Skala 
eingehen. 


Der Item-Analyse liegen zwei Gedanken zugrunde. Messen die Items die- 
selbe Dimension, dann sollten sich Unterschiede auf der zu messenden 
Dimension auch in unterschiedlichen Antworten niederschlagen. Zudem 
sollten die Antworten der Befragten zu den einzelnen Statements dann 
konsistent sein. 


1 Dieses Vorgehen wird auch als listenweiser Fallausschluss (listwise deletion) bezeich- 
net. Der listenweise Fallausschluss wird in empirischen Analysen häufig praktiziert, 
führt aber nur unter bestimmten Bedingungen zu unverzerrten Ergebnissen. Näm- 
lich dann, wenn die kompletten Fälle als eine Zufallsstichprobe aus allen Fällen 
betrachtet werden können (missing completely at random, vgl. einführend Schafer 
und Graham 2002). 
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Um zu überprüfen, ob sich Unterschiede in der zu messenden Einstellung 
auch in der Beantwortung der einzelnen Aussagen niederschlagen, teilt 
man die Befragten in Extremgruppen auf. Zunächst berechnet man für 
jede Person die Summe der Werte über alle Items. Im Beispiel ist der 
niedrigste mögliche Wert der Summe 4 (wenn bei allen vier Items der 
Wert 1 vorliegt), der höchste mögliche Wert beträgt 28 (wenn bei allen vier 
Items der Wert 7 vorliegt). Man wählt dann diejenigen 25 % der Befragten 
aus, die die niedrigsten Werte über alle Items aufweisen und diejenigen 
25% der Befragten mit den höchsten Werten. Für die vier ALLBUS-Items 
haben die 25% der Befragten mit den niedrigsten Werten Werte zwischen 
4 und 11 (Gruppe 1). Die 25% der Befragten mit den höchsten Werten 
haben Werte zwischen 18 und 28 (Gruppe 2). 


Danach vergleicht man die Antworten der beiden Extremgruppen zu je- 
dem einzelnen Item. Brauchbar sind diejenigen Items, bei denen sich die 
Antworten der Extremgruppen unterscheiden. Tabelle 3.1 beinhaltet die 
Durchschnittswerte der beiden Extremgruppen ( und 72) für die einzel- 
nen Items. Befragte mit extrem hohen Werten auf allen Items (Gruppe 
2) sollten auch jedem einzelnen Item deutlich stärker zustimmen als Be- 
fragte mit extrem niedrigen Werten auf allen Items (Gruppe 1). Dies ist 
auch der Fall. Am stärksten unterscheiden sich die beiden Gruppen in der 
Beantwortung der Frage, ob man Ausländern jede politische Betätigung 
in Deutschland untersagen sollte. Am geringsten ist der Unterschied in der 
Beurteilung der Aussage, Ausländer sollten ihren Lebensstil besser an den 
der Deutschen anpassen. 


Bei der Analyse beschränkt man sich nicht auf einen Vergleich der Mit- 
telwerte. Vielmehr wird für jedes Item ein Trennschärfe-Index berech- 
net, der dem t-test für Mittelwertunterschiede entspricht (Kapitel 12.3.1). 
Trennschärfe-Indizes größer als 1,65 gelten als ausreichend zur Annahme 
eines Unterschiedes in der Beantwortung der Items durch die beiden Ex- 
tremgruppen. Wie man sieht, sind die Trennschärfe-Indizes alle deutlich 
größer als 1,65. Die Items scheinen daher ein und dieselbe Dimension zu 
messen und zur Konstruktion einer Skala geeignet. 


Eine andere Methode der Itemanalyse ist die Berechnung von 
Trennschärfe-Koeffizienten. Messen alle Aussagen ein und densel- 
ben Sachverhalt, dann sollten die Items hoch miteinander korrelieren. Ein 
Befragter, der der Aussage „Die in Deutschland lebenden Ausländer sollten 
ihren Lebensstil ein bisschen besser an den der Deutschen anpassen“ stark 
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Tabelle 3.1: Extremgruppenanalyse 


Gruppe 1 Gruppe 2 Differenz 
Tı T2 Tə — Tı t-Wert 

Lebensstilanpassung 4,5 6,6 2,1 25 
(s?=1,723) (s3=0,884) 

Arbeitsplätze 1,3 5,1 3,8 51 
(s?=0,636) (s2=1,614) 

Politische Betätigung 1,3 5,5 4,2 57 
(s?=0,706) (s2=1,600) 

Ehepartner 1,1 4,2 3.1 35 
(s?=0,478)  (s2=2,01) 

Anzahl der Befragten 553 557 


Daten: Allbus 2006, Westdeutsche. z = arithmetisches Mittel, s®-Varianz 


zustimmt, müsste auch das Statement „Man sollte den in Deutschland 
lebenden Ausländern jede politische Betätigung in Deutschland untersa- 
gen“ befürworten. Unplausibel wäre dagegen die Zustimmung zum ersten 
Statement bei gleichzeitiger Ablehnung des zweiten Statements. Treten 
solche inkonsistenten Antwortmuster häufiger auf, muss man vermuten, 
dass die Statements Unterschiedliches messen. Bei inhaltlich plausiblen 
Antworten ist der Zusammenhang zwischen der Beantwortung eines Items 
und allen anderen Items dagegen sehr stark. Um dies zu überprüfen, be- 
rechnet man die Stärke des Zusammenhangs (vgl. Kapitel 7.6, Pearsons 
r) zwischen jedem einzelnen Item und dem Summenwert über alle Items 
(Spalte 4). Dieses Maß wird als Trennschärfe-Koeflizient bezeichnet. Der 
Trennschärfe-Koeffizient kann maximal eins werden.? Nämlich dann, wenn 
es einen perfekten positiven Zusammenhang zwischen Item und Skala gibt. 
Statements, die nur schwach mit den anderen Statements zusammenhän- 
gen, sind für die Skala untauglich und werden in der endgültigen Skala 
nicht verwendet. Die Korrelationskoeffzienten der Items mit der Skala 
bewegen sich zwischen 0,55 und 0,79. Angegeben wird zudem der korri- 
gierte Trenschärfe-Koeflizient (Spalte 5). Dieser gibt die Korrelation eines 
Items mit der Summe aller restlichen Items an. Diese Korrektur wird vor- 
genommen, weil die Korrelation zwischen Item und Skala dadurch, dass 
das Item auch in der Skala enthalten ist, künstlich überschätzt wird. Man 


2 Bei gleichsinnig gepolten Items kann der Koeffizient nur positive Werte annehmen. 
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sieht, dass die korrigierten Trennschärfe-Koeffizienten deutlich geringer 
sind. Die Aussage, Ausländer sollten ihren Lebensstil besser an den der 
Deutschen anpassen, ist weniger gut als die anderen Aussagen geeignet, 
um Personen mit und ohne negative Einstellungen gegenüber Ausländern 
zu unterscheiden. In der letzten Spalte ist Cronbachs o angegeben, auf 
dessen Berechnung und Interpretation weiter unten eingegangen wird. 


Tabelle 3.2: Trennschärfe-Koefhizienten und Cronbachs a 


Korrelation mit Cronbachs o 
Item z s Skala Rest-Skala | (ohne Item) 
Lebensstilanpassung 5,7 1,55 0,55 0,30 (0,70) 
Arbeitsplätze 3,1 1,92 0,78 0,56 (0,54) 
Politische Betätigung | 3,3 2,12 | 0,79 0,53 (0,56) 
Ehepartner 2,3 1,86 0,71 0,45 (0,62) 
Skala 14,4 5,34 0,68 


z= arithmetisches Mittel, s=-Standardabweichung 
Daten: Allbus 2006, westdeutsche Befragte, n=2.038. 


Beide Verfahren können zu unterschiedlichen Ergebnissen führen, da in 
einem Fall „nur“ die Extremgruppen, im anderen Fall alle Befragten in die 
Berechnung einfließen. Die Methode der Extremgruppen ist das ältere, die 
Berechnung von Trennschärfe-Koeffizienten das neuere Verfahren. 


Nachdem die Items für die endgültige Skala ausgewählt sind, kann der 
Skalenwert für jede Person berechnet werden. Dies geschieht durch 
Addition der Werte der ausgewählten Items. Werden trotz des niedrigen 
Trennschärfe-Koeffizienten für das Item Lebensstilanpassung alle Items 
zur Bildung der Skala herangezogen, so ist der niedrigste mögliche Wert 4, 
der inhaltlich der Abwesenheit von negativen Einstellungen zu Ausländern 
entspricht, und der höchste Wert 28, der die höchstmögliche Ausprägung 
negativer Einstellungen zu Ausländern wiedergibt. Damit ist die Likert- 
Skala konstruiert und das Messinstrument ist fertig. Der Mittelwert auf 
der Skala beträgt 14, die Standardabweichung — ein Maß für die Streuung 
der Antworten (Kapitel 6.2.4) - 5,34. 


So einfach die Berechnungsanweisung ist, so schwierig ist die Interpre- 
tation der Skalenwerte — zumindest im mittleren Bereich der Skala. Die 


Skalierungsverfahren 55 


Position eines Befragten muss außerdem relativ zu allen anderen interpre- 
tiert werden. Bei einem durchschnittlichen Skalenwert von 14 ist 10 ein 
niedriger Skalenwert. Bei einem Durchschnittswert von 9 ist ein Skalenwert 
von 10 dagegen relativ „normal“. Zudem muss berücksichtigt werden, ob 
das Antwortverhalten einer Gruppe eher homogen oder heterogen ist.? 


Auf einen Punkt muss hingewiesen werden: Um die Itemanalyse durchfüh- 
ren zu können, gehen wir davon aus, dass die Abstände zwischen den ein- 
zelnen Skalenpunkten gleich groß sind, und damit z. B. die Extremantwor- 
ten („Stimme überhaupt nicht zu“, „Stimme voll und ganz zu“) gleich weit 
von der Mitte entfernt sind. Wir nehmen also an, dass die zur Itemana- 
lyse herangezogenen Items mindestens intervallskaliert sind. Ohne diese 
Annahme dürften wir arithmetisches Mittel, Varianz, t-test (Trennschärfe- 
Index) und Pearsons r (Trennschärfe-Koeflizient) nicht berechnen. Ob die 
Abstände zwischen den Kategorien äquidistant sind, kann bei mehreren 
Items mit Ratingskalen-Format geprüft werden (vgl. Rost 2004, Kapitel 
3). 


In der empirischen Sozialforschung werden häufig eine Reihe von Items 
als Likert-Skalen bezeichnet, weil sie fünfstufige Antwortalternativen ha- 
ben. Auch Summenindizes werden manchmal Likert-Skalen genannt. Um 
Likert-Skalen handelt es sich jedoch nur dann, wenn vor Addition der Wer- 
te geprüft wurde, ob die Skala eindimensional ist. Faktorenanalysen sind 
eine alternative Methode zur Prüfung der Eindimensionalität. 


3.3.2 Guttman-Skala 


Die Guttman-Skala unterscheidet sich in der Konstruktion deutlich von 
der Likert-Skala. Durch die Guttman-Skalierung werden gleichzeitig Perso- 
nen und Aussagen hinsichtlich der zu messenden Dimension in eine Rang- 
folge gebracht werden. Die Skalen für konventionelle und unkonventionelle 
Partizipation der Political Action Studie (vgl. Barnes et al. 1979) sind Bei- 
spiele für Guttman-Skalen. 


Einer Guttman-Skala liegen Items zugrunde, die hinsichtlich der zu 
messenden Dimension immer extremer werden, d.h. die Dimension 


3 Man kann die Skalenwerte standardisieren, indem man eine 2-Transformation (vgl. 
Gleichung 10.13, S. 242) durchführt. Die z-Werte geben die Abweichung des Ska- 
lenwertes eines Befragten vom durchschnittlichen Skalenwert in Abhängigkeit von 
der Streuung der Skalenwerte wieder. 
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in einer unterschiedlichen Intensität messen. Als Beispiel werden Fragen 
zur politischen Partizipation aus dem ALLBUS 1998 herangezogen. Unter 
anderem wurde die Bereitschaft zu unkonventioneller politischer Partizi- 
pation gemessen. Die Frage lautete: „Wenn Sie politisch in einer Sache, die 
Ihnen wichtig ist, Einfluß nehmen, Ihren Standpunkt zur Geltung bringen 
wollten: Welche der Möglichkeiten auf diesen Karten würden Sie dann nut- 
zen, was davon käme für Sie in Frage?“ Auf den Karten waren eine Reihe 
konventioneller (Wählen, Mitarbeit in einer Partei usw.) und unkonventio- 
neller Partizipationsformen angegeben (vgl. Zentralarchiv für empirische 
Sozialforschung 1999, 60-68). Aus den vorgegebenen Items haben wir für 
das Beispiel drei Indikatoren ausgewählt (Abbildung 3.4) 


Abbildung 3.4: Messung unkonventioneller politischer Partizipation 


1. Teilnahme an einer nicht genehmigten Demonstration 
2. Mitarbeit in einer Bürgerinitiative 


3. Hausbesetzung, Besetzung von Fabriken, Ämtern 


Schwierig ist ein Item dem wenige Befragte zustimmen. Ein Item ist leicht, 
wenn es von vielen Befragten bejaht wird. Nach dem Schwierigkeitsgrad 
werden die Items in eine Reihenfolge gebracht. Zur Erläuterung der Logik 
des Verfahrens nehmen wir vorerst an, dass die Items von Bürgerinitiativen 
über ungenehmigte Demonstrationen zu Hausbesetzungen immer schwie- 
riger werden. Durch die Befürwortung von Hausbesetzungen wird also 
eine größere Bereitschaft zu unkonventioneller Beteiligung ausgedrückt 
als durch die Befürwortung ungenehmigter Demonstrationen, und durch 
die Befürwortung ungenehmigter Demonstrationen eine größere als durch 
Bürgerinitiativen. 


Die Antwortvorgaben bei den Items einer Guttman-Skala sind dicho- 
tom, d.h. es werden nur zwei Antwortmöglichkeiten — Zustimmung oder 
Ablehnung — vorgegeben. Angenommen wird, dass bis zu einem gewis- 
sen Schwellenwert der zu messenden Eigenschaft (hier: Befürwortung un- 
konventioneller politischer Partizipation) ein Item abgelehnt wird. Über- 
schreitet die zu messende Einstellung diesen Schwellenwert, dann wird 
das Item befürwortet. Bis zu einem bestimmten Ausmaß der Befürwor- 
tung unkonventioneller politischer Partizipation wird z. B. die Beteiligung 
an einer Bürgerinitiative abgelehnt. Erst wenn unkonventionelle Beteili- 
gungsformen in einem bestimmten Ausmaß befürwortet werden, wird die 
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Beteiligung an einer Bürgerinitiative bejaht. Bis zu einem bestimmten 
Schwellenwert der zu messenden Eigenschaft ist die Wahrscheinlichkeit 
der Befürwortung eines Items null, ab diesem Schwellenwert ist die Wahr- 
scheinlichkeit eins. Die Wahrscheinlichkeit der Befürwortung steigt also bei 
einer bestimmten Ausprägung der zu messenden Eigenschaft sprunghaft 
von null auf eins an. 


Messen die Items eine einzige Dimension in unterschiedlicher Intensität, 
dann kann angenommen werden, dass eine Person, die ein bestimmtes Item 
bejaht, alle weniger extremen Items ebenfalls bejaht. Stimmt die oben an- 
genommene Reihenfolge, dann ist anzunehmen, dass ein Befragter, der 
an Hausbesetzungen teilnehmen würde, ebenfalls die Teilnahme an unge- 
nehmigten Demonstrationen und an Bürgerinitiativen in Betracht zieht. 
Andererseits dürfte eine Person, die sich nicht an Bürgerinitiativen betei- 
ligen möchte, keine ungenehmigten Demonstrationen und erst recht keine 
Hausbesetzungen erwägen. Die Items sollten also eine kumulative Ord- 
nung aufweisen. Bei einer idealen Guttman-Skala kann aus der Summe 
der bejahten Items nicht nur geschlossen werden, wie vielen, sondern auch 
welchen Items der Befragte zugestimmt hat: bei einem bejahten Item dem 
schwächsten Item, bei zwei bejahten Items den beiden schwächsten Items 
usw. Ideal soll heißen, dass nur modellkonforme Antwortmuster auftre- 
ten. Aus der Anzahl bejahter Items kann dann das Antwortmuster genau 
reproduziert werden. 


Bei drei Items — wie in unserem Beispiel — existieren vier zulässige bzw. mo- 
dellkonforme Antwortmuster. Diese sind in Tabelle 3.3 auf der folgenden 
Seite dargestellt. + bedeutet die Zustimmung zu einer Aussage, — deren 
Ablehnung; Item 1 kennzeichnet das schwächste, Item 2 das mittlere und 
Item 3 das extremste Item. Das erste Antwortmuster (— — —) kennzeich- 
net die Ablehnung aller Items. Das zweite Antwortmuster (+ — —) gibt 
an, dass dem schwächsten Item (Item 1) zugestimmt, die beiden extreme- 
ren Items (Item 2 und Item 3) dagegen ablehnt wurden. Der Skalenwert 
entspricht der Zahl des „extremsten“ Items, das bejaht wurde. Im dritten 
Antwortmuster ist dies das zweite Item; für dieses Antwortmuster wird 
also der Skalenwert „2“ vergeben. 


Ob die Items nun eine Guttman-Skala bilden, lässt sich daran ablesen, wie 
gut die Antwortmuster aus der Anzahl bejahter Items reproduziert werden 
können. Die in Tabelle 3.4 auf der nächsten Seite dargestellten Antwort- 
muster entsprechen nicht den Anforderungen der Guttman-Skala. Bei die- 


58 Messen 


Tabelle 3.3: Modellkonforme Antwortmuster bei der Guttman-Skala 


Item 1 Item 2 Item 3 | Skalenwert 


sen Antwortmustern lässt sich aus der Anzahl bejahter Items nicht mehr 
ablesen, welche Items bejaht wurden. Bei nur einem bejahten Item muss 
man nach der Logik der Guttman-Skala eigentlich davon ausgehen, dass 
Item 1 (das am wenigsten extreme Item) bejaht und die beiden extreme- 
ren Items verneint wurden (Antwortmuster: +— —). Tatsächlich wurde im 
ersten Antwortmuster jedoch nur das zweite Item bejaht (Antwortmuster: 
—+-). Wenn man aus der Anzahl bejahter Items das Antwortmuster ab- 
leitet, begeht man also zwei Fehler: Die Beantwortung des ersten Items (— 
statt +) und des zweiten Items (+ statt —) werden falsch eingeschätzt.“ 
Messen die Items eine Dimension in unterschiedlicher Intensität, dann 
kann es eigentlich nicht sein, dass dem extremsten Item zugestimmt wird, 
die beiden weniger extremen Items jedoch abgelehnt werden (— — +). 


Tabelle 3.4: Nicht modellkonforme Antwortmuster bei der Guttman- 
Skala 


Item 1 Item 2 Item 3 | Wert | Fehler 


Wert = Anzahl bejahter Items 


Mit der Skalogramm- Analyse wird anhand der Antwortmuster geprüft, 
ob die Items zur Bildung einer Guttman-Skala geeignet sind. Je höher 
der Anteil unzulässiger Antwortmuster, umso ungeeigneter sind die Items. 


4 Zur Berechnung der Fehler existieren mehrere Verfahren. Hier werden die Fehler 
als Abweichung vom idealen Muster berechnet (Methode von Goodenough und 
Edwards, vgl. McIver und Carmines 1982, 42). 
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Das Verfahren soll an den ausgewählten Items zur politischen Beteiligung 
demonstriert werden. 


Zunächst müssen wir feststellen, welche Items extremer und welche weni- 
ger extrem sind. Diese Entscheidung fällt nicht aufgrund vorheriger Über- 
legungen (auch wenn man sich schon bei der Formulierung der Fragen 
Gedanken über deren Intensität macht), sondern aufgrund der Antworten 
der Befragten. Die Reihenfolge der Statements ist also eine em- 
pirische Frage. Die Items werden also zunächst nach der Häufigkeit 
der Zustimmungen geordnet. Von den 2.117 westdeutschen Befrag- 
ten im ALLBUS 1998 gaben ca. 30% (646) an, dass sie gegebenenfalls 
an einer Bürgerinitiative mitarbeiten würden, knapp 10 % (202) zogen die 
Beteiligung an einer ungenehmigten Demonstration in Betracht, während 
lediglich 3% (76) der Befragten zur Besetzung von Häusern bereit wä- 
ren. Die Reihenfolge der Items ist also: Bürgerinitiative, ungenehmigte 
Demonstration, Hausbesetzung. 


Nun muss ermittelt werden, wie viele der Antworten nicht dem idealen 
Muster entsprechen. In der ersten Spalte von Tabelle 3.5 sind im oberen 
Teil die modellkonformen und, im unteren Teil, die nicht-modellkonformen 
Antwortmuster angegeben. Im Kopf der ersten Spalte finden sich die drei 
Items, geordnet nach deren Schwierigkeit, die durch die prozentuale Zu- 
stimmung ermittelt wurde. In der zweiten Spalte ist die Zahl der bejahten 
Items, in der dritten die Zahl der Fehler pro Antwortmuster wiedergege- 
ben. Die Frage ist nun, wie viele der Befragten modellkonform antworteten 
und wie viele nicht. Wie man in der vierten Spalte sehen kann, antworteten 
2.025 Befragte (1.389+505+90+41) modellkonform; 92 (57+11+14+ 10) 
Befragte antworteten nicht im Sinne des Modells. Insgesamt (vgl. die letz- 
te Spalte der Tabelle) werden bei der Vorhersage des Antwortmusters aus 
der Zahl bejahter Items 184 Fehler gemacht. 


Bei einer idealen Guttman-Skala würden keine Fehler auftreten und un- 
sere Vorhersagegenauigkeit betrüge 100%. Der Anteil modellkonformer 
Antworten (= die zulässigen Antwortmuster) an allen Antworten wird als 
Reproduzierbarkeitskoeffizient bezeichnet. 


Anzahl der Fehler 


Rep. = 1 — — 
eP alle Antworten 
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Tabelle 3.5: Guttman Skala - Politische Beteiligung 1998 


BI UD HB | Wert | Fehler| Befragte | Summe der 
Fehler 
Zustimmung 
30% 10% 3% 

= — — 0 0 1389 

+ = E 1 0 505 

+ + = 2 0 90 

+ + + 3 0 41 

= T = 1 2 57 57x2 

= = SE 1 2 11 +11x2 

= ES + 2 2 14 +14x2 

+ = + 2 2 10 +10 x2 
= 184 


BI: Bürgerinitiative; UD: ungenehmigte Demonstration; HB: Hausbesetzung, 
Besetzung von Fabriken und Ämtern 
Quelle: ALLBUS 1998, westdeutsche Befragte 


R j Anzahl der Fehler 
°P- =- — Anzahl der Befragten x Anzahl der Items 

Der Reproduzierbarkeitskoeffizient ist also ein Maß für die Güte der Ska- 
la. Ein objektives Kriterium für die notwendige Größe dieses Koeffizienten 
existiert nicht. Als Faustregel hat sich ein Wert von 0,9 — also eine Vor- 
hersagegenauigkeit von mindestens 90 % - eingebürgert. 


In unserem Beispiel ergibt sich: 


184 


les ee 
Rep 2117x3 


0,97 


Oder anders ausgedrückt: Im Beispiel lassen sich 97% der Antworten auf- 
grund der Skalenwerte richtig vorhersagen. Die drei verwendeten Items 
sind nach diesem Maß zur Bildung einer Guttman-Skala geeignet. 


Sind die Items geeignet, dann wird für jeden Befragten der Skalenwert 
berechnet. Beim hier gewählten Verfahren (McIver und Carmines 1982, 
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51f.) ergibt sich der Skalenwert aus der Anzahl bejahter Items. Wir er- 
halten eine stark schiefe Verteilung der Skalenwerte, da ein erheblicher 
Prozentsatz der Befragten überhaupt keine der vorgegebenen unkonven- 
tionellen Beteiligungsformen in Betracht zieht. Die Guttman-Skala misst 
auf ordinalem Niveau, da keine Annahme über die Skalenabstände ge- 
macht werden. Zur Vereinfachung der Darstellung wurden lediglich drei 
Items betrachtet. In wissenschaftlichen Analysen sollten — wenn möglich 
— mehr Indikatoren herangezogen werden. 


Beachtet werden muss, dass die Skalierbarkeit eine empirische Frage ist 
und damit von der jeweiligen Datenbasis abhängt. Es ist möglich, dass 
dieselben Items in einer Umfrage eine Likert-/Guttman-Skala bilden, wäh- 
rend sie in einer anderen Umfrage die Skalenvoraussetzungen nicht erfül- 
len. Bei international oder interkulturell vergleichenden Analysen Har- 
kness et al. (2003) sollte die Skalierbarkeit für jede Gruppe getrennt un- 
tersucht werden. 


3.4 Gütekriterien einer Messung 


Als Anhaltspunkte für die Qualität einer Messung werden deren Relia- 
bilität und Validität herangezogen (vgl. Carmines und Zeller 1979). Un- 
ter Reliabilität wird die Zuverlässigkeit einer Messung verstanden. Ein 
Messinstrument ist umso zuverlässiger, je kleiner der Messfehler ist. Mit 
Validität bezeichnet man die Gültigkeit einer Messung. Hier geht es dar- 
um, ob tatsächlich das gemessen wurde, was gemessen werden sollte, und 
nicht irgendetwas anderes. 


3.4.1 Reliabilität 


Was Reliabilität eines Messinstrumentes bedeutet, kann man sich an fol- 
gendem Beispiel deutlich machen: Nehmen wir an, wir wollen die Tempe- 
ratur messen. Wenn wir zwei Messinstrumente haben, die die Temperatur 
messen — z.B. ein Thermometer und ein Bimetall, das sich bei Wärme 
ausdehnt und bei Kälte zusammenzieht — sollten Messungen mit diesen 
Instrumenten zu demselben Ergebnis kommen. Mit dem Thermometer 
messen wir eine Temperatur von 24°C. Eine parallel durchgeführte Mes- 
sung mit dem Bimetall ergibt eine Temperatur von 21°C. Wenn sicherge- 
stellt ist, dass die unterschiedlichen Messergebnisse nicht andere Gründe 
haben (Sonneneinstrahlung, Wind usw.), dann muss man davon ausgehen, 
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dass eine der Messungen bzw. eines der Messinstrumente nicht besonders 
zuverlässig die Temperatur misst, eventuell sogar beide. Die Messinstru- 
mente weisen keine hohe Reliabilität auf. 


Wir könnten auch nur mit einem Instrument, z.B. einem Thermometer, 
arbeiten, und kurz nach unserer ersten Messung eine zweite durchführen. 
Wenn die Temperatur sich zwischen den beiden Zeitpunkten nicht geän- 
dert hat, z. B. weil der zeitliche Abstand zwischen den Messungen sehr ge- 
ring ist, das Thermometer aber trotzdem unterschiedliche Werte anzeigt, 
kann man auch hier davon ausgehen, dass das Instrument nicht reliabel ist. 
Mit diesem Thermometer erhält man keine zuverlässigen Messwerte. Beide 
Überprüfungsmethoden werden auch im sozialwissenschaftlichen Bereich 
angewendet, zudem kann die interne Konsistenz eines Messinstrumentes 
geprüft werden (vgl. auch zu neueren Methoden Rost 2004, 376-380): 


e Paralleltestverfahren 
e Test-Retest-Verfahren 
e Interne Konsistenz 


Beim Paralleltestverfahren wird die Zuverlässigkeit durch zwei ver- 
schiedene Messinstrumente geprüft, die dasselbe messen sollen. Je stärker 
beide Messungen miteinander korrelieren (vgl. Kapitel 7), umso höher ist 
die Reliabilität der Messungen. Weichen die Ergebnisse stark voneinander 
ab, dann sind die Messinstrumente nicht reliabel. Allerdings existieren 
nur selten vergleichbare (= parallele) Messinstrumente. Ein Thermometer 
kann andere Messergebnisse produzieren als ein Bimetall, zumindest ge- 
nauere. Bei sozialwissenschaftlichen Fragestellungen stellt sich dieses Pro- 
blem noch viel gravierender. So kann zum Beispiel ein Messinstrument für 
„Nationalstolz“ die Frage sein: „Sind Sie stolz, Deutscher zu sein?“. Ein 
anderes Instrument könnte die Frage sein: „Sind Sie stolz auf Deutsch- 
land”?“. Die unterschiedlichen Frageformulierungen könnten der Grund für 
unterschiedliche Ergebnisse sein. Man kann anzweifeln, on die beiden Fra- 
gen wirklich dasselbe messen, selbst wenn man davon ausgeht, dass beide 
Fragen „Nationalstolz“ erfassen. 


Mit dem Test-Retest-Verfahren wird die Reliabilität durch die wieder- 
holte Anwendung des Messinstruments geprüft. Führen zwei nacheinander 
erfolgte Messungen mit demselben Instrument zu unterschiedlichen Ergeb- 
nissen, dann misst das Messinstrument nicht zuverlässig. Allerdings muss 
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man von der Stabilität des wahren. Wertes (im obigen Beispiel die Tempe- 
ratur) zwischen den zwei Messzeitpunkten ausgehen, um unterschiedliche 
Messergebnisse auf die mangelnde Reliabilität des Instrumentes zurück- 
führen zu können. Auf das Beispiel der Messung von „Nationalstolz“ ange- 
wendet, hieße dies, dass die Frage „Sind Sie stolz, Deutscher zu sein?“ relia- 
bel misst, wenn die Antworten zu unterschiedlichen Zeitpunkten bei den- 
selben Befragten hoch miteinander korrelieren. Vorausgesetzt, der Natio- 
nalstolz hat sich zwischen beiden Zeitpunkten nicht verändert. Um dies zu 
gewährleisten, kann man die beiden Messungen möglichst zeitnah durch- 
führen. Erinnern sich die Befragten an ihre erste Antwort und versuchen 
sie, möglichst übereinstimmend zu antworten, dann wird die Reliabilität 
des Instruments allerdings überschätzt. 


Am besten lässt sich die Reliabilität überprüfen, wenn ein Messinstrument 
aus mehreren Indikatoren besteht, die alle dieselbe Dimension messen sol- 
len - so wie es beispielsweise bei den oben genannten vier Indikatoren zur 
Messung ausländerfeindlicher Einstellungen aus dem ALLBUS 2006 der 
Fall ist. Besteht das Instrument aus mehreren Indikatoren, dann kann die 
interne Konsistenz der Einzelmessungen überprüft werden. Zur Über- 
prüfung der internen Konsistenz wird meistens Cronbachs o verwendet, 
dessen Berechnung aber ebenfalls intervallskalierte Indikatoren voraus- 
setzt. Der Wert von a ist abhängig von der mittleren Interkorrelation der 
Items und der Zahl der Items. Je mehr Items in die Berechnung einfließen, 
umso höher ist Cronbachs o bei gleicher mittlerer Interkorrelation. Cron- 
bachs o sollte größer als 0,8 sein, in empirischen Analysen werden aber 
auch geringere Werte akzeptiert (vgl. die Beispiele bei Diekmann 2008, 
254). 


Cronbachs o beträgt für die vier ALLBUS-Items 0,68 (Tabelle 3.2).* In den 
Zeilen der Einzelitems finden sich zudem noch die Werte von Cronbachs o, 
wenn das jeweilige Item nicht in die Berechnung der Skala einginge. Man 
sieht, dass die Reliabilität der Skala ohne das Item Lebensstilanpassung 


2 
5 Die Formel zur Berechnung lautet: œa = Eet 1- Ze). p ist die Zahl der Items. 
Skala 


Im Zähler des zweiten Bruchs steht die Summe der Varianzen der Einzelitems, im 
Nenner die Varianz der Skala. Je stärker die Items zusammen hängen, umso grö- 
fer wird sžkala im Vergleich zu J s?. Ist der Zusammenhang zwischen den Items 
null, dann entspricht die Varianz der Skala der Summe der Varianzen der Ein- 
zelitems und Cronbachs o nimmt den Wert null an. Für das Beispiel ergibt sich 


_ 4 _ 1,55?+1,92°+2,12°+1,86?\ _ 
o — ziel) "Së = 0, 68. 
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etwas höher ausfallen würde, jedoch deutlich schlechter wäre, wenn die 
Indikatoren Arbeitsplätze oder politische Betätigung nicht in der Skala 
enthalten wären. 


Festzuhalten bleibt, dass die Überprüfung der Reliabilität nicht einfach 
ist. Beim Paralleltestverfahren müssen vergleichbare Messinstrumente ver- 
wendet werden, beim Test-Retest-Verfahren muss sichergestellt sein, dass 
der wahre Wert unverändert geblieben ist. Zur Überprüfung der internen 
Konsistenz benötigt man keine der beiden Annahmen. Dies ist einer der 
Hauptvorteile, die die Messung einer Dimension durch mehrere Indikato- 
ren mit sich bringt. 


3.4.2 Valıdität 


Während sich Reliabilität auf den technischen Aspekt einer Messung be- 
zieht, betrifft die Validität den inhaltlichen Aspekt. 


Am Beispiel der Parteiidentifikation soll die Validität einer Messung ver- 
deutlicht werden (vgl. bereits Falter 1977). Unter der Parteiidentifikation 
wird in der Wahlforschung eine langfristig stabile, psychologische Bindung 
an eine Partei verstanden (vgl. Campbell et al. 1980, 121). Die Partei- 
identifikation wird in der Bundesrepublik durch folgende Frage gemessen: 
„Viele Leute neigen in der Bundesrepublik längere Zeit einer bestimmten 
Partei zu, obwohl sie auch ab und zu eine andere Partei wählen. Wie ist 
das bei Ihnen: Neigen Sie — ganz allgemein gesprochen - einer bestimmten 
Partei zu? Wenn ja, welcher?“. Diese Frage soll langfristige Bindungen an 
eine Partei messen, nicht aber die Wahlabsicht, was in der Frage durch den 
Zusatz „obwohl sie auch ab und zu eine andere Partei wählen“ verdeutlicht 
wird. Ändern sich die Angaben zur Frage der Parteiidentifikation häufig, 
dann messen wir nicht mehr nur das, was wir messen wollten (langfristige 
Bindungen), sondern zusätzlich etwas anderes (kurzfristige Präferenzen). 
Nimmt beispielsweise der Anteil der Befragten mit Parteiidentifikation in 
Wahljahren deutlich zu, dann ist dies ein Indiz dafür, dass mit dieser Frage 
auch kurzfristige Präferenzen gemessen werden, da in Wahlkampfzeiten die 
politische Mobilisierung der Bürger steigt. Zur Überprüfung der Stabilität 
der Parteiidentifikation sind Informationen über individuelle Veränderun- 
gen notwendig, d.h. man benötigt Panel- oder Ereignisdaten (Kapitel 2.4). 
In Deutschland wird die Parteiidentifikation im Sozio-ökonomischen Panel 
erhoben. Die Analyse von Schmitt-Beck et al. (2006) deutet auf erhebliche 
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Fluktuationen in den Parteiidentifikationen der Befragten über einen Zeit- 
raum von 18 Jahren hin. Mit dem SOEP lässt sich leider nicht prüfen, ob 
die Parteiidentifikation — wie theoretisch erwartet werden kann — stabiler 
ist als die Wahlabsicht und dieser tatsächlich zeitlich vorausgeht, weil die 
Wahlabsicht nicht erhoben wird. 


An diesem Beispiel lässt sich auch zeigen, dass die Validität von der 
Reliabilität abhängt, nicht jedoch umgekehrt die Reliabilität von 
der Validität. Unsere Messung kann nämlich sehr zuverlässig sein, wenn 
etwa kurzfristige Schwankungen in den Parteipräferenzen durch die Fra- 
ge der Parteiidentifikation exakt registriert und angezeigt würden. Da es 
sich aber um ein Instrument zur Messung der Parteiidentifikation handelt, 
glauben wir langfristig stabile Bindungen zu messen. Wir messen also sehr 
verlässlich etwas, das wir gar nicht messen wollen (kurzfristige Präferen- 
zen). Das heißt: Eine zuverlässige Messung muss nicht valide sein. 


Ist ein Messinstrument unreliabel, dann kann auch nicht angegeben wer- 
den, was gemessen wird. Das heißt: Eine unzuverlässige Messung kann 
nicht valide sein. Reliabilität ist also die notwendige (aber nicht hinrei- 
chende) Bedingung für Validität. 


Es gibt drei Möglichkeiten, Validität festzustellen: 


e Inhaltsvalidität 
e Kriteriumsvalidität 
e Konstruktvalidität 


Das Augenmerk wird bei Prüfung der Inhaltsvalidität eines Messinstru- 
ments vor allem darauf gerichtet, ob das Messinstrument die zu messende 
Dimension vollständig erfasst. Bei einem mehrdimensionalen Begriff (Sta- 
tus) muss sichergestellt sein, dass jede Dimension angemessen durch die 
ausgewählten Items repräsentiert wird. Will man die Bereitschaft zu un- 
konventioneller politischer Beteiligung messen, dann ist die Frage nach 
der Beteiligung an genehmigten Demonstrationen sicher kein sehr valides 
Messinstrument, da diese (in westlichen Demokratien) heute zum „norma- 
len“ Aktionsrepertoire zählen. Will man die Qualität der Lehre messen, 
dann reicht es nicht aus, lediglich das Verhältnis von Lehrenden zu Stu- 
dierenden zu erfassen. Ebenso ist die schiere Zahl publizierter Artikel und 
Bücher alleine kein valider Indikator für die Qualität der Forschung. 
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Kriteriumsvalidität liegt dann vor, wenn das zu messende Konstrukt 
anhand eines externen Kriteriums überprüft werden kann. „Extern“ be- 
deutet, dass das Kriterium nicht mit der Messung des Konstruktes im Zu- 
sammenhang stehen darf. Beispiel: Wir fragen nach der Wahlabsicht bei 
der nächsten Bundestagswahl und überprüfen unsere Messung anhand des 
tatsächlichen Wahlergebnisses. Das Problem besteht darin, dass das Kri- 
terium nur selten so exakt bestimmt werden kann, wie in diesem Beispiel. 
Wenn es um die Messung solcher Tatbestände wie „Rechtsextremismus“ 
oder „Ausländerfeindlichkeit“ geht, ist es schwierig, ein externes Kriterium 
zu finden, anhand dessen die Messung überprüft werden kann. Außerdem 
gibt es Probleme, wenn die Feststellung des Kriteriums nur auf einer einzi- 
gen Messung beruht. Es ist wenig aufschlussreich, eine in Zweifel stehende 
Messung anhand eines Kriteriums validieren zu wollen, dessen Validität 
nicht erwiesen ist. Das obige Beispiel ist deshalb untypisch: Nicht immer 
hat man die Gelegenheit, eine zeitlich frühere Messung (Wahlabsicht bei 
der nächsten Bundestagswahl) anhand eines später sehr genau feststellba- 
ren Kriteriums (Wahlergebnis) überprüfen zu können. 


Bei der Kriteriumsvalidität werden oftmals prädiktive und gleichzeitige 
Validität unterschieden (predictive und concurrent validity). Beide unter- 
scheiden sich lediglich darin, ob das externe Kriterium später erhoben 
wird, und sich die Validität dementsprechend in der Vorhersage erweist 
(predictive), oder ob das Kriterium gleichzeitig mit der Messung erhoben 
wird, und sich die Validität in einer Übereinstimmung zwischen diesen 
beiden zeigt (concurrent). Ein Beispiel für prädiktive Validität haben wir 
bereits oben angesprochen (Wahlabsicht — Wahlergebnis). Ein Beispiel 
für gleichzeitige Validität wäre etwa die Messung von „Sympathie für eine 
Partei“ und die Feststellung, ob der Befragte Mitglied dieser Partei ist. 
Wenn „Parteisympathie“ valide gemessen wird, sollte sie bei Mitgliedern 
höher ausfallen als bei Nichtmitgliedern. Dieses Verfahren wird auch als 
„Methode der bekannten Gruppen“ bezeichnet (vgl. Schnell et al. 2008, 
159). 


Der Überprüfung der Konstruktvalidität liegt der Gedanke zugrunde, 
dass sich aus den theoretisch begründbaren Beziehungen des zu messenden 
Konstrukts zu anderen Konstrukten Hypothesen ableiten lassen, die em- 
pirisch geprüft werden können. Wenn man gültig misst, müssten sich die 
durch die Hypothesen behaupteten Zusammenhänge empirisch feststellen 
lassen. Aus der Rechtsextremismusforschung wissen wir, dass Rechtsex- 
tremismus mit Ausländerfeindlichkeit und Nationalismus einhergeht. Ist 
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die Messung von Rechtsextremismus valide, dann müsste sich ein positiver 
Zusammenhang zwischen Rechtsextremismus und Ausländerfeindlichkeit 
und Rechtsextremismus und Nationalismus zeigen. Zeigen sich die ver- 
muteten Zusammenhänge, dann deutet dies darauf hin, dass die Messung 
valide ist. Zeigen sich die erwarteten Zusammenhänge allerdings nicht, so 
kann dies mehrere Ursachen haben; unter anderem die, dass eines der Kon- 
strukte nicht valide gemessen wurde oder die Hypothesen falsch sind. 


Das „Multitrait-Multimethod“-Verfahren (vgl. Eagly und Chaiken 1993, 
69-71) stellt eine besondere Form der Konstruktvalidierung dar, die auf 
Campbell und Fiske (1959) zurückgeht. Das Verfahren setzt voraus, dass 
mehrere Konstrukte jeweils durch verschiedene Methoden (z.B. Befra- 
gung und Beobachtung) gemessen werden. Die Messungen sollen mit ver- 
schiedenen Methoden durchgeführt werden, da hohe Zusammenhänge zwi- 
schen verschiedenen Indikatoren eines Konstrukts nicht nur dann auftre- 
ten, wenn diese tatsächlich dieselbe Dimension messen, sondern auch durch 
die Methode bedingt sein können. In einer Umfrage können z. B. ähnliche 
Stimuli in der Frageformulierung, Zustimmungstendenzen (bei gleich ge- 
polten Items) oder sozial erwünschtes Antwortverhalten für Zusammen- 
hänge zwischen den Items verantwortlich sein (vgl. Kapitel 4.1). Die Ver- 
wendung verschiedener Konstrukte dient dem Nachweis, dass die zur Mes- 
sung der verschiedenen Konstrukte herangezogenen Items tatsächlich Un- 
terschiedliches messen. Unter Konvergenzvalidität wird die Stärke des Zu- 
sammenhangs zwischen den mit verschiedenen Methoden durchgeführten 
Messungen eines Konstrukts verstanden; unter Diskriminanzvalidität die 
Stärke des Zusammenhangs zwischen den mit denselben Methoden durch- 
geführten Messungen verschiedener Konstrukte. Liegt Konstruktvalidität 
vor, dann sollte die Konvergenzvalidität höher ausfallen als die Diskrimi- 
nanzvalidität. 


In der Praxis wird das „Multitrait-Multimethod“- Verfahren in dieser Form 
nur selten durchgeführt, weil in der Regel keine auf verschiedenen Metho- 
den beruhenden Messungen vorliegen. Statt dessen kann man das Verfah- 
ren so abwandeln, dass zur Messung der Konstrukte verschiedene Indi- 
katoren, die durch eine Methode erhoben wurden, herangezogen werden 
(vgl. Schnell et al. 2008, 158 ff.). 
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Messen 


Aufgaben zu Messen 


. Was bedeutet „Messen“? 
. Nennen Sie die verschiedenen Skalenniveaus und die Eigenschaften, 


durch die diese charakterisiert werden. 


. Im ALLBUS 1990 wurden unter anderem die unten angegebenen 


Merkmale (in Klammern: Merkmalsausprägungen) erfasst. Bestimmen 
Sie bitte das Skalenniveau. 
e Geschlecht (männlich — weiblich) 
e Sind Gewerkschaften für unser Land ...? (hervorragend - sehr gut 
— gut — nicht besonders gut — überhaupt nicht gut) 
e Alter (in Jahren) 
e Finkommen (in DM) 
e Wahlabsicht (CDU - SPD - FDP - Bündnis 90/Die Grünen — Die 
Linke — Sonstige) 
e Einkommen (unter 2000 DM - 2001 bis 5000 DM — mehr als 5000 
DM) 
e Politisches Interesse (sehr stark — stark — mittel — wenig — über- 
haupt nicht stark) 
e Religionszugehörigkeit (katholisch — evangelisch — andere) 
e Geburtsjahr 


. Welche der folgenden Antworten ist falsch? Warum? 


a) Intervallskalen haben die Eigenschaften von Nominalskalen. 
b) Ratioskalen haben die Eigenschaften von Ordinalskalen. 

c) Ordinalskalen haben die Eigenschaften von Intervallskalen. 
d) Ordinalskalen haben die Eigenschaften von Nominalskalen. 


. Beschreiben Sie mit eigenen Worten, was Skalierungsverfahren sind. 


Welche Vorteile haben Skalen im Vergleich zu einem Messinstrument 
aus einem Indikator? 


. Beschreiben Sie die Konstruktion der behandelten Skalierungsverfah- 


ren, und nennen Sie die wesentlichen Vor- und Nachteile. 


. Was bedeuten die Begriffe Reproduzierbarkeitskoeffizient und Item- 


Analyse, und in welchem Zusammenhang werden diese gebraucht? 
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8. Sie haben ein neues Messinstrument zur Messung von Ausländerfeind- 
lichkeit entwickelt. Dieses führt bei wiederholter Anwendung zu sta- 
bilen Ergebnissen. Zudem korreliert das neu entwickelte Messinstru- 
ment stark mit einer — bereits bewährten — Skala zur Messung von 
Ausländerfeindlichkeit. Deuten diese Resultate darauf hin, dass Ihr 
Messinstrument reliabel, valide oder beides ist? Begründen Sie Ihre 
Antwort. 


4 Erhebungsmethoden 
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In diesem Kapitel geht es darum, auf welche Art und Weise man sich In- 
formationen über einen Ausschnitt der sozialen Realität beschaffen kann. 
Wollen wir beispielsweise wissen, wie stark fremdenfeindliche Tendenzen in 
der Polizei vertreten sind, so könnten wir Polizisten befragen (vgl. Mletzko 
und Weins 1999), wir könnten aber auch das Verhalten von Polizisten ge- 
genüber Ausländern und Deutschen in verschiedenen Situationen (z. B. bei 
Demonstrationen) beobachten und daraus Rückschlüsse ziehen. Ebenso 
könnten Strafanzeigen oder Dienstaufsichtsbeschwerden gegen Polizisten 
auf ihre Ursache (z. B. Diskriminierung von Ausländern) untersuchen. Da- 
mit sind die drei zentralen Instrumente der Datengewinnung, die auch als 
Erhebungstechniken oder Erhebungsmethoden bezeichnet werden, bereits 
umrissen: 


1. Befragung 
2. Beobachtung 
3. Inhaltsanalyse 


Mit jedem der genannten Erhebungsinstrumente sind bestimmte Vor-, 
aber auch Nachteile verbunden. Bei einer Befragung von Polizisten zu 
ihren fremdenfeindlichen Einstellungen kann man nicht sicher sein, ob die 
Polizisten ihre tatsächlichen Einstellungen berichten oder ob sie diese, z. B. 
aus Angst vor Sanktionen, lieber verschweigen. Dieses Problem taucht bei 
einer Beobachtung des Verhaltens von Polizisten (z.B. bei Großeinsät- 
zen) nicht auf. Allerdings steht hier der Beobachter vor der schwierigen 
Aufgabe, alle relevanten Freignisse gleichzeitig erfassen und einordnen zu 
müssen. 


Insbesondere Politikwissenschaftler und Soziologen stützen sich vorwie- 
gend auf Umfragedaten, weshalb die Befragung im Mittelpunkt dieses 
Kapitels steht. Die Inhaltsanalyse ist immer noch eine Domäne der Publi- 
zistik, da sie sich besonders gut zur Analyse von Medien eignet, während 
die Beobachtung eher in der Psychologie zu finden ist. 


U. W. Gehring, C. Weins, Grundkurs Statistik für Politologen und Soziologen, 
DOI 10.1007/978-3-531-91879-2_4, 
© VS Verlag für Sozialwissenschaften | GWV Fachverlage GmbH, Wiesbaden 2009 
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4.1 Befragung 


Weder für den Befragten noch für den Interviewer stellt die Befragung eine 
natürliche, alltägliche Situation dar. Von einem alltäglichen Gespräch un- 
terscheidet sich ein Interview dadurch, dass eine Person (der Interviewer) 
nur fragt, während die andere Person — einmal abgesehen von Verständnis- 
fragen — nur antwortet. Das „Gespräch“ hat damit einen stark asymmetri- 
schen Charakter. Zudem soll die Befragungsperson einem völlig fremden 
Menschen zum Teil sehr persönliche Dinge preisgeben. Die Antworten sind 
also keine an sich schon vorhandenen Informationen, sondern werden durch 
das Interview erst erzeugt. Aus diesem Grund wird die Befragungssitua- 
tion auch als Stimulus-Response- oder Reiz-Reaktions-Schema bezeichnet: 
Die Frage ist der (künstliche) Reiz, die Antwort die (künstliche) Reaktion. 
Daher ist die Befragung auch ein reaktives Messverfahren, d.h. die Daten 
werden durch das Messinstrument — die Befragung — beeinflusst. Mit der 
Reaktivität von Befragungen sind vor allem zwei methodische Probleme 
verbunden: die Tendenz von Befragten, sozial erwünscht zu antworten, 
und die Tendenz, Aussagen unabhängig von ihrem Inhalt zuzustimmen. 


Sozial erwünschtes Antwortverhalten („social desirability“) liegt vor, wenn 
die Antwort in Richtung der vermeintlich vom Interviewer bzw. der Gesell- 
schaft als positiv bewerteten Antwort (dem Ort sozialer Erwünschtheit) 
verzerrt ist. Dies wäre z.B. der Fall, wenn ein Befragter vorhandene frem- 
denfeindliche Einstellungen nicht äußert oder abschwächt, weil er solche 
Einstellungen als unerwünscht ansieht. Eine Erklärung sieht die Ursache 
im Streben von Befragten nach sozialer Anerkennung. Bei einer wahren 
(sozial unerwünschten) Antwort entstehen für den Befragten durch den 
Verzicht auf soziale Anerkennung Kosten, die er durch sozial als erwünscht 
angesehene Antworten vermeiden kann (vgl. Reinecke 1991). Antwortver- 
zerrungen durch Soziale Erwünschtheit sollten vor allem bei sensiblen 
Fragen — Fragen, die dem Befragten unangenehm sind — und bei Perso- 
nen mit einem hohen Bedürfnis nach sozialer Anerkennung stark ausge- 
prägt sein. Die gesamte Vorurteilsforschung ist mit dem Problem sozia- 
ler Erwünschtheit konfrontiert. So wurden in den USA Zweifel an der in 
Umfragen gemessenen Abnahme von Vorurteilen gegenüber der schwar- 
zen Bevölkerung nach dem Zweiten Weltkrieg laut. Vermutet wurde, dass 
nicht die Vorurteile abgenommen hatten, sondern lediglich die Äußerung 
von Vorurteilen zurückgegangen sei, weil die Akzeptanz von Vorurteilen 
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gegenüber der schwarzen Bevölkerung geringer sei als noch einige Jahr- 
zehnte zuvor (vgl. Dovidio und Gaertner 1986). 


Zur Vermeidung oder Abschwächung sozial erwünschten Antwortverhal- 
tens sollten die Fragen möglichst neutral formuliert sein. Damit versucht 
man die Reaktivität des Messinstrumentes abzuschwächen. In den USA 
wurden zusätzlich zu den traditionellen Skalen zur Messung von offenen 
Vorurteilen (blatant prejudice) Skalen entwickelt, die weniger reaktiv sein 
sollen und auch subtilere Vorurteile erfassen (subtle prejudice). Eine ande- 
re Strategie besteht darin, die Anonymität der Befragungssituation zu er- 
höhen. Im ALLBUS 2006 wurde die Anonymität der Befragung bei einigen 
Items zur Einstellung gegenüber Ausländern (vgl. Abbildung 3.2, S. 49) 
für einen zufällig ausgewählten Teil der Befragten erhöht. Die Antworten 
wurden bei diesen Befragten nicht vom Interviewer erhoben. Vielmehr ha- 
ben die Befragten ihre Antworten selbst (und für den Interviewer nicht 
kontrollierbar) im Computer eingegeben (CASI-Split, vgl. S. 25). Man 
sollte erwarten, dass soziale Erwünschtheit bei eigener Fingabe der Ant- 
worten eine geringere Rolle spielt als bei Abfrage durch den Interviewer. 
Außerdem kann man soziale Erwünschtheit direkt über Skalen erfassen 
(vgl. Reinecke 1991). Die Skalen beruhen auf der Annahme, dass sozial 
erwünschtes Antwortverhalten aus dem Bedürfnis der Befragten nach so- 
zialer Anerkennung resultiert. Im ALLBUS 2006 wurde eine Kurzform der 
deutschen Fassung der Marlowe-Crowne-Skala mit zehn Items verwendet. 
Der Einfluss des Bedürfnisses nach sozialer Anerkennung auf das Antwort- 
verhalten kann mit diesen Skalen direkt geprüft werden. 


Mit Zustimmungstendenz (Akquieszenz) oder „Ja-Sage-Tendenz“ wird 
ein Verhalten von Befragten beschrieben, einer Frage unabhängig von ih- 
rem Inhalt zuzustimmen. Zustimmungstendenzen lassen sich prüfen, wenn 
mehrere, negativ und positiv formulierte Items zur Messung einer Dimen- 
sion verwandt werden. Befragte, die negativ formulierten Items zustim- 
men, sollten positiv formulierte Items ablehnen und umgekehrt. Befragte, 
die sich unabhängig von der Polung der Frage immer zustimmend äußern, 
antworten unplausibel und können gegebenenfalls aus der Analyse aus- 
geschlossen werden. Die Zustimmungstendenz ist ein Spezialfall eines re- 
sponse rets. Reponse sets bezeichnen allgemein die Neigung von Befragten, 
Items unabhängig von der zu messenden Dimension in einer bestimmten 
Art und Weise zu beantworten. Dazu zählen die Bevorzugung oder Ver- 
meidung der Mittelkategorie ebenso wie eine Präferenz für die Extremka- 
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tegorien. Zur Kontrolle von Response-Sets können in einem ersten Schritt 
die Antwortmuster der Befragten ausgewertet werden. 


Selbst wenn der Befragte gewillt ist, korrekt Auskunft zu geben, lassen 
sich Messfehler nicht gänzlich vermeiden, z. B. aufgrund von Erinnerungs- 
fehlern. Allgemein kann man davon ausgehen, dass Fragen zu demogra- 
phischen und biographischen Merkmalen (Geschlecht, Ausbildung, Ein- 
tritt in eine Partei, Heirat usw.) korrekter beantwortet werden als Fragen 
zum Verhalten (z.B. Teilnahme an Demonstrationen) und diese wiederum 
korrekter als Fragen zu Einstellungen (Meinung zum Schwangerschaftsab- 
bruch, Parteiidentifikation usw.), weil demographische und biographische 
Fakten dem Befragten selbst eher bewusst und weniger flüchtig sind als 
Verhalten und vor allem Einstellungen. Eine retrospektive Frage nach dem 
Jahr der Eheschließung dürften die meisten Verheirateten einigermaßen 
korrekt beantworten. Es ist daher nicht sinnvoll, weit zurückliegende Ein- 
stellungen mit retrospektiven Fragen zu erfassen. 


4.1.1 Formen der Befragung 


Wenn wir von Befragung sprechen, meinen wir in der Regel die standar- 
disierte bzw. quantitative Befragung. In ihr ist der Verlauf des Interviews 
durch die exakte Formulierung und genaue Abfolge der Fragen festge- 
legt. Abweichungen davon sind nicht zulässig. Sind die Fragen und/oder 
der Ablauf der Befragung nicht fixiert, dann spricht man von einer nicht- 
standardisierten bzw. qualitativen Befragung (vgl. Bortz und Döring 2006, 
308-321). Die Grenzen zwischen beiden Formen sind fließend. Es kann sich 
bei einer nicht-standardisierten Befragung z. B. um ein Leitfadengespräch 
handeln, bei dem der Interviewer nur eine Liste von Themen hat, die er 
in beliebiger Reihenfolge abarbeiten kann. Bei narrativen Interviews wird 
den Befragten lediglich eine Themenstellung vorgegeben. Im folgenden be- 
schäftigen wir uns mit der standardisierten Befragung. 


Eine Befragung kann persönlich, schriftlich, telefonisch und internetge- 
stützt erfolgen. Bei der persönlichen Befragung besucht ein Interviewer 
die Befragungsperson und führt mit dieser das Interview durch. Der Inter- 
viewer liest der Befragungsperson die Fragen aus dem Fragebogen vor und 
notiert die Antworten. Mit Ausnahme von Kärtchen und anderen visuellen 
Hilfen, die der Veranschaulichung dienen, bekommt die Befragungsperson 
nichts vorgelegt. Eine Vielzahl von Beispielen für visuelle Hilfen findet man 
bei Noelle-Neumann und Petersen (1996). Bei der schriftlichen Befragung 
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wird der Befragungsperson ein Fragebogen zum Selbstausfüllen überreicht 
oder zugestellt. Üblicherweise soll die Befragungsperson den Fragebogen 
zurücksenden, in Ausnahmefällen wird der Bogen auch abgeholt. Befragt 
man ganze Schulklassen in Klassenräumen, dann können die Bögen di- 
rekt überreicht und auch unmittelbar nach der Beantwortung der Fragen 
wieder eingesammelt werden. Die telefonische Befragung läuft ähnlich wie 
eine persönliche Befragung ab. Allerdings können dem Befragten keine vi- 
suellen Hilfen gegeben werden. Bei internetgestützten Befragungen (vgl. 
Janetzko 1999; Batinic et al. 1999) füllt der Befragte entweder direkt im 
Internet auf einem Web-Server einen Fragebogen aus (Web-Survey) oder 
er bekommt diesen per E-Mail zugesandt. 


Persönliche Befragungen haben ihren dominanten Stellenwert in der 
Markt- und Meinungsforschung in den vergangenen zehn Jahren einge- 
büßt. Auch schriftliche Befragungen sind hier seit 1990 deutlich zurückge- 
gangen (Tabelle 4.1).! Telefonumfragen (vgl. Frey et al. 1990; Fuchs 1994) 
sind inzwischen am weitesten verbreitet. Besonders dynamisch entwickeln 
sich Online-Interviews, die vor zehn Jahren noch keine Bedeutung hatten, 
inzwischen aber fast ein Drittel aller Interviews der Mitgliederinstitute des 
ADM ausmachen. Berücksichtigt muss bei diesen Angaben allerdings, dass 
Önline-Surveys vor allem in der Marktforschung eingesetzt werden. 


Tabelle 4.1: Formen der Befragung in der Markt- und Meinungsforschung 


| |1990 1995 2000 2005 2007 


Persönliche Interviews | 65% 60% 34% 24% 26% 
Telefoninterviews 22% 30% 41% 5% 4% 


Schriftliche Interviews | 13% 10% 2% 9% 6% 
Online-Interviews = - 3% 22% 27% 


Quelle: Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e. V. 
(2006, 16) und www.adm-ev.de 


Ein Grund für diese Entwicklung ist in der Kostenstruktur zu sehen. Per- 
sönliche Interviews sind deutlich teurer als telefonische Befragungen, weil 
die Interviewer vor Ort die Interviews durchführen, wodurch Reisekos- 
ten usw. anfallen. Telefoninterviews können dagegen zentral in einem Te- 
lefonlabor durchgeführt werden. Durch die 1998 erfolgte Liberalisierung 


1 Aufgrund von Veränderungen bei den Mitgliedsinstituten des ADM sind die Zahlen 
über die Jahre nicht unmittelbar vergleichbar. 
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des Telekommunikationsmarktes sind die Kosten für Telefonate im Fest- 
netz und mit dem Handy zudem dramatisch gesunken. Die dynamische 
Entwicklung bei Online-Interviews wurde erst durch die Verbreitung von 
Computern und Internetanschlüssen in privaten Haushalten möglich. Die 
abnehmende Bedeutung schriftlicher Befragungen wird auf eine Erset- 
zung durch Online-Erhebungen zurückgeführt (vgl. Arbeitskreis Deutscher 
Markt- und Sozialforschungsinstitute e. V. 2006). 


Der Reiz internetbasierter Umfragen liegt vor allem in den geringen Kos- 
ten und der schnellen Verfügbarkeit der Daten. Im Gegensatz zu telefoni- 
schen Interviews können visuelle Hilfen jeder Art (auch Filme) verwendet 
werden. Internetbasierte Umfragen sind jedoch mit besonderen Proble- 
men behaftet (vgl. für eine kritische Einschätzung Schnell et al. 2008, 
379 £.). Dazu zählt vor allem die Schwierigkeit der Realisierung einer Zu- 
fallsstichprobe (vgl. Kapitel 9), die für die Verallgemeinerung von Stich- 
probenergebnissen notwendig ist. Bevölkerungsweite Umfragen sind der- 
zeit mit internetgestützten Befragungen nicht möglich, weil lediglich die 
Hälfte der bundesdeutschen Bevölkerung das Internet privat nutzt (An- 
gaben nach ALLBUS 2006) und sich die Internetnutzer von den Nicht- 
Nutzern in wesentlichen Merkmalen unterscheiden - sie sind beispielswei- 
se jünger. Für bestimmte Fragestellungen und Zielpopulationen können 
Internet-Befragungen jedoch sinnvoll sein. 


Die technologische Revolution durch Mikrocomputer hat auch telefoni- 
sche und mündliche Befragungen erfasst. In computergestützten Telefon- 
befragungen (CATI - Computer Assisted Telephone Interview) wird der 
Fragebogen programmiert. Der Interviewer liest die Fragen während des 
Interviews vom Bildschirm ab und gibt die Antworten der Befragten di- 
rekt in den Computer ein. Automatisch wird dann zur nächsten Frage ge- 
sprungen, wobei das Programm automatisch für die richtige Filterführung 
sorgt. Auch mündliche Befragungen können so durchgeführt werden (CA- 
PI- Computer Assisted Personal Interview). Die Interviewer müssen da- 
zu mit einem tragbaren Computer ausgestattet werden. Die Verwendung 
von Computern bei der Datenerhebung bietet unbestreitbare Vorteile. Es 
können beispielsweise komplexe Filterführungen (siehe unten) eingesetzt 
werden, weil der Computer automatisch zur nächsten Frage springt. Eine 
vom Interview getrennte Erfassung der Daten entfällt, weil die Daten- 
eingabe während des Interviews statt findet. CATI und CAPI sind mehr 
als programmierbare Fragebögen. CATI-Systeme verwalten beispielsweise 
Telefonnummern und führen die Anrufe (zur gewünschten Zeit) aus. Te- 
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lefonische Erhebungen werden inzwischen weitgehend computergestützt 
durchgeführt. Der Anteil der computergestützten persönlichen Befragun- 
gen (CAPT) hat sich zwischen 2000 und 2006 bei den Mitgliedsinstituten 
des ADM von ca. einem Viertel auf knapp die Hälfte verdoppelt (vgl. Ar- 
beitskreis Deutscher Markt- und Sozialforschungsinstitute e. V. 2006, 15; 
Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e. V. 2000, 
10). 


Unabhängig von der Form der Befragung müssen bestimmte Grundprin- 
zipien beachtet werden. Im schlimmsten Fall vergisst man eine Frage zu 
stellen, die für den Untersuchungszweck relevant ist. Nachträglich kann ein 
solcher Fehler nicht mehr behoben werden. Man sollte sich deshalb vor der 
Entwicklung des Fragebogens nicht nur darüber im Klaren sein, was man 
erklären will (z.B. fremdenfeindliche Einstellungen von Polizisten), son- 
dern sich auch genau überlegen, welche Faktoren die abhängige Variable 
beeinflussen könnten (z. B. dienstliche Belastungen, das Einsatzgebiet, die 
politische Einstellung, das Alter oder das Geschlecht der Polizeibeamten). 
Weiß man, welche Aspekte erfasst werden sollen, so kann man sich an die 
Formulierung der Fragen wagen und schließlich den Fragebogen zusam- 
menstellen. Bei der Formulierung der Fragen sollte man die im Folgenden 
genannten Aspekte berücksichtigen (vgl. Converse und Presser 1986; Sud- 
man 1982). 


4.1.2 Die Fragen 


Die Frageformulierungen und die Antwortmöglichkeiten prägen das Ant- 
wortverhalten der Befragten entscheidend (vgl. Schuman und Presser 
1996). Aus diesem Grund sollte man sich bei der Interpretation von Um- 
frageergebnissen nicht nur die Verteilung der Antworten, sondern auch die 
gestellten Fragen genau anschauen. So stimmten in einer im Herbst 1995 
durchgeführten Umfrage unter den Mitgliedern der rheinland-pfälzischen 
SPD erstaunliche 74% der Befragten einem Lauschangriff zu (Katego- 
rien „stimme voll und ganz zu“ und „stimme eher zu“), wie man einer 
Ergebnisdokumentation entnehmen kann. Dieses Ergebnis ist weit weni- 
ger erstaunlich, wenn man die — in der erwähnten Ergebnisdokumentation 
nicht berichtete — Frageformulierung berücksichtigt. Sie lautete: „Bei der 
Verfolgung besonders schwerer Straftaten soll das rechtsstaatlich geregel- 
te Abhören des gesprochenen Wortes zu Beweiszwecken verwendet werden 
dürfen (sog. Lauschangriff).“ Die Einschränkung auf „besonders schwere 


Befragung 77 


Straftaten“ und der Verweis auf die Rechtsstaatlichkeit des Verfahrens 
trug sicher zu dieser hohen Zustimmung bei. 


Bei den meisten Fragen kann man die Antworten in eine wie auch im- 
mer gewünschte Richtung beeinflussen. In manchen Fällen scheinen die 
„Frager“ weniger an den tatsächlichen Meinungen, Einstellungen oder Ver- 
haltensweisen der befragten Personen interessiert zu sein als an einer Be- 
stätigung bestimmter Positionen. Die Ergebnisse einer Umfrage können 
dann z.B. in der politischen Auseinandersetzung zur Stützung des eige- 
nen Standpunktes herangezogen werden (vgl. Diekmann 2008, 458 f.). 


Regeln zur Frageformulierung 


In wissenschaftlichen Umfragen spielen bewusste Manipulationen (in der 
Regel) keine Rolle. Bei der Publikation wissenschaftlicher Ergebnisse auf 
Basis von Umfragedaten werden die Formulierungen der Fragen häufig 
mit veröffentlicht. Durch offensichtlich einseitig gestellte Fragen würde der 
Wissenschaftler die Glaubwürdigkeit seiner Ergebnisse von Vornherein in 
Frage stellen. Unbeabsichtigt schleichen sich dagegen in jeder Umfrage 
Formulierungen ein, die sich auf das Antwortverhalten auswirken. Hält 
man sich an einige Grundregeln, kann man jedoch schwerwiegende Fehler 
vermeiden. 


Generell sollten die Fragen so formuliert sein, dass sie den Befragten nicht 
überfordern. Das heißt: 


e kurze Fragen stellen, 

einfache und allgemeinverständliche Begriffe und Formulierungen ver- 
wenden, 

konkrete Dinge ansprechen, 

eindeutige Begriffe benutzen, 

(doppelte) Verneinungen (Negationen) vermeiden, 

keine Suggestivfragen stellen, und 

keine mehrdimensionalen Fragen verwenden. 


In der Frage sollten — wenn möglich — bereits alle Antwortalternativen 
„ausformuliert“ sein, damit keine Antwortalternative durch die Nennung 
in der Frage bevorzugt wird. Solche Fragen werden auch als „balancierte“ 
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Fragen bezeichnet. Es lässt sich nämlich zeigen, dass die Antwortalternati- 
ve, die in der Frage enthalten ist, deutlich mehr Zustimmung erhält als ei- 
ne ungenannte Antwortalternative (vgl. die Beispiele bei Noelle-Neumann 
und Petersen 1996, 131f. und 195 ff.). Balancierte Fragen sind natürlich 
nur bei einer geringen Zahl von Antwortalternativen möglich. Will man 
die Zustimmung oder Ablehnung zu einer Position messen, wie es z.B. 
bei Likert-Skalen der Fall ist, dann können keine „balancierten“ Formulie- 
rungen verwendet werden. 


Man kann vermuten, dass die oben genannten Antworten der rheinland- 
pfälzischen SPD-Mitglieder zum „großen Lauschangriff“ anders ausgefal- 
len wären, wenn eine balancierte Frage formuliert worden wäre, etwa in 
der Art: „Sind Sie der Meinung, dass bei der Verfolgung besonders schwe- 
rer Straftaten das Abhören des gesprochenen Wortes zu Beweiszwecken 
verwendet werden darf oder sind Sie der Meinung, dass bei der Verfol- 
gung besonders schwerer Straftaten das Abhören des gesprochenen Wortes 
nicht verwendet werden darf“. Als Antwortkategorien könnte man vorge- 
ben „sollte nicht verwendet werden“ und „sollte verwendet werden“. Eine 
Skala von „stimme stark zu“ bis „lehne stark ab“ ist hier nicht mehr mög- 
lich, da die Frage ja mehrere Positionen enthält. Darauf, dass die Schärfe 
der Formulierung („besonders schwere Straftaten“) das Antwortverhalten 
beeinflusst, wurde bereits hingewiesen. 


Generell gilt, dass die Fragen so kurz wie möglich sein sollten, damit der 
Befragte am Ende des Satzes auch noch weiß, worum es geht. Dies ist bei 
mündlichen und telefonisch durchgeführten Interviews wichtiger als bei 
schriftlichen Befragungen, in denen der Befragte die Möglichkeit hat, sich 
die Frage mehrmals durchzulesen. 


Wichtig ist bei bevölkerungsweiten Umfragen auch, dass man einfache und 
allgemein verständliche Begriffe verwendet und Fremdwörter vermeidet, 
da man nicht bei allen Befragten von einem gleich großen Wortschatz 
ausgehen kann: Statt „partiell“ schreibt man also besser „teilweise“, und 
verständlicher als „Applikation“ ist sicher „Anwendung“. Versteht ein Be- 
fragter die Frage nicht, so besteht die Gefahr, dass er einfach irgendetwas 
ankreuzt oder die Antwort verweigert. Vor dieser Unannehmlichkeit kann 
man die Befragten in der Regel ohne größere Probleme bewahren. Die 
Sprache sollte der Zielgruppe der Untersuchung angemessen sein. 


Schon schwieriger ist die Forderung, nur nach konkreten Dingen zu fra- 
gen, d.h. abstrakte Begriffe zu vermeiden. In Umfragen findet sich z.B. 
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häufig die Frage „Wie zufrieden sind Sie mit der Demokratie". Hier kann 
man den Antworten nicht viel abgewinnen, da man nicht so genau weiß, 
was der Befragte unter Demokratie versteht (z.B. das politische System 
der Bundesrepublik?). Ein weiteres Beispiel ist die Frage „Wie stark ist 
ihr politisches Interesse?“. Diese Frage ist nicht eindeutig. Hier muß der 
Befragte entscheiden, woran er sein politisches Interesse festmacht; an der 
Häufigkeit, mit der er den politischen Teil der Tageszeitung liest? Ob er 
sich am politischen Leben, z. B. in einer Bürgerinitiative oder einer politi- 
schen Partei beteiligt? Es wäre sinnvoller, mehrere Fragen zu stellen, die 
genau diese Aspekte als Indikatoren für politisches Interesse erfassen. Da- 
mit wäre der Befragte nicht auf seine eigene Interpretation angewiesen, die 
der Forscher aus der gegebenen Antwort nicht mehr erkennen kann. Auch 
Verneinungen in der Frage tragen nicht zu einer besseren Verständlichkeit 
bei, weil eine ablehnende Antwort zu einer doppelten Verneinung führt: 
„Es ist nicht die Aufgabe der Opposition, die Regierung zu kritisieren, 
sondern sie in ihrer Arbeit zu unterstützen“. 


Suggestivfragen, d.h. Fragen, durch deren Formulierung den Befragten ei- 
ne bestimmte Antwort nahegelegt wird, gehören in den Bereich der Mani- 
pulation und sind schlicht unzulässig. Eine Suggestivfrage wäre etwa „Sind 
Sie auch der Meinung, dass die Ausgaben für BAföG viel zu hoch sind“. 
Die Frage „Sind Sie für die Verringerung von Treibhausgasen und eine län- 
gere Laufzeit von Atomkraftwerken?“ ist aus einem anderen Grund falsch. 
Hier handelt es sich um eine mehrdimensionale Frage, d.h. eine Frage, 
die verschiedene Aspekte beinhaltet. Diese verschiedenen Aspekte können 
nicht getrennt beantwortet werden, weil sie in einer Frage zusammenge- 
fasst sind. Im Beispiel zwingen wir den Befragten, entweder die Reduktion 
von Treibhausgasen und längere Laufzeiten zu befürworten oder beides ab- 
zulehnen. Dem Befragten wird damit die Möglichkeit genommen, sich für 
die Klimaziele und gegen längere Laufzeiten zu äußern und umgekehrt. 
Zwei Dimensionen in einer Frage sind deshalb unbedingt zu vermeiden. 


Antwortformate 


Entscheidend für die Ergebnisse einer Umfrage ist auch, ob Antwortalter- 
nativen vorgegeben werden (geschlossene Fragen) oder die Befragten in 
einem dafür vorgesehenen freien Feld eine Antwort niederschreiben können 
(offene Fragen). 
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Üblicherweise wird man geschlossene Fragen dort einsetzen, wo die Ant- 
wortmöglichkeiten bekannt und begrenzt sind. Um geschlossene Kategori- 
en vorzugeben, muss man also schon wissen, welche Antworten gegeben 
werden können. Das einfachste Beispiel ist hier das Merkmal Geschlecht 
mit den Ausprägungen männlich und weiblich. Offene Fragen gibt man 
den Vorzug, wenn man noch keine Vorstellung davon hat, was die Befrag- 
ten antworten werden; die Kenntnis über den Untersuchungsgegenstand 
also noch ziemlich gering ist. Offene Fragen sind auch dann geeigneter 
als geschlossene, wenn die Antwortmöglichkeiten unbegrenzt oder zumin- 
dest sehr vielfältig sind. Um beispielsweise das Einkommen oder das Alter 
hinreichend genau zu erfassen, müssten sehr viele Kategorien verwendet 
werden, während bei einer offenen Frage nur ein Feld notwendig ist. 


Auch bei anderen Fragen, wie etwa nach der Zahl der am Vor- 
tag gerauchten Zigaretten, sollte man sich überlegen, ob man nicht 
die genaue Zahl offen erfasst. Die Kategorisierung selbst beein- 
flusst nämlich das Antwortverhalten. Bei niedrigen Antwortvorgaben 
[O0 | 1-4 | 5-9 | 10-19 | 20 und mehr] wird man wahrscheinlich 
einen niedrigeren Zigarettenkonsum ermitteln als bei hohen Antwortvor- 
gaben [O | 1-19 | 20-29 | 30-39 | 40 und mehr], weil die Kate- 
gorisierung Anhaltspunkte für die Einschätzung des eigenen Verhaltens 
liefert (vgl. Schwarz et al. 1985). 


Auch die Reihenfolge der Antwortvorgaben und deren Visualisierung 
kann das Antwortverhalten beeinflussen (Beispiele finden sich bei Noelle- 
Neumann und Petersen 1996, 191-207). Reihenfolgeeffekte lassen sich 
kontrollieren, in dem die Abfolge der Antwortkategorien zufällig variiert 
wird. Dies ist natürlich nur bei ungeordneten Antwortkategorien (nominale 
Merkmale) sinnvoll. 


Einen Kompromiss zwischen geschlossener und offener Frage stellt die 
Hybridfrage dar. Hier hat der Befragte die Möglichkeit, eine vorgegebe- 
ne Kategorie anzukreuzen. Trifft keine dieser Kategorien zu, so kann der 
Befragte in einem Feld „Sonstiges“ offen antworten. Die Frage nach der 
Wahlabsicht, aufgrund der üblicherweise verwendeten Formulierung auch 
„Sonntagsfrage“ genannt, ist ein Beispiel für eine Hybridfrage (vgl. Abbil- 
dung 4.1). Die Antwortmöglichkeiten bei der Wahlabsicht sind begrenzt 
und bekannt — nämlich die kandidierenden Parteien. Da bei einer Bun- 
destagswahl aber schon einmal 20 oder mehr Parteien antreten, wäre es 
übertrieben, alle aufzulisten, zumal manche Parteien selten oder nie ge- 
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nannt würden. Man gibt also nur die Parteien vor, die meistens genannt 
werden und lässt die Möglichkeit zu, neben dem Feld „andere Partei“ eine 
nicht aufgeführte Partei zu nennen. 


Abbildung 4.1: Sonntagsfrage im ALLBUS 1990 


Liste 570A vorlegen! CDU bzw. CSU 


Wenn am nächsten Sonntag Bundestagswahl 
wäre, welche Partei würden Sie dann mit Ihrer 
Zweitstimme wählen? 


Nur eine Nennung möglich! 


Die Republikaner 
Andere Partei (bitte notieren): 


Würde nicht wählen 


Angabe verweigert 
Weiß nicht 


Uste S70B vorlegen! 


Wenn am nächsten Sonntag Wahl zum Berliner 
Abgeordnetenhaus wäre, welche Partei würden 
Sie dann mit Ihrer Zweitstimme wählen? 


Nur eine Nennung möglich! 


Geschlossene Fragen haben ganz allgemein den Vorteil, dass durch die 
Standardisierung der Antworten die Auswertung der Fragen erleichtert 
wird. Die offenen Antworten müssen zunächst alle erhoben werden, bevor 
ähnliche Antworten zu Gruppen zusammen gefasst werden können. Erst 
nach diesem Prozess der Kategorisierung kann die Auswertung beginnen. 
Dies ist ein zeit- und kostenaufwändiges Verfahren, vor allem bei großen 
Umfragen. Zudem ist die Vergleichbarkeit der Antworten bei geschlosse- 
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nen Fragen höher als bei offenen. Mit dem Verzicht auf offene Fragen ist 
allerdings immer ein Informationsverlust verbunden. 


Entscheidet man sich für geschlossene Fragen, so muss man zwei Dinge 
beachten: Die Antwortkategorien müssen die Bandbreite möglicher Ant- 
worten erschöpfend abdecken. Zudem müssen sich die einzelnen Antwort- 
möglichkeiten gegenseitig ausschließen. Die erste Forderung nach Voll- 
ständigkeit kann man erfüllen, indem man im Zweifelsfall eine Restka- 
tegorie „Sonstiges“, „Andere“ etc. vorgibt. Ebenso ist die Forderung nach 
Ausschließlichkeit selbstverständlich: Ein Befragter darf sich nur in einer 
der vorgegebenen Kategorien wiederfinden, d.h. die Antwortmöglichkeiten 
dürfen sich nicht überlappen. 


Bei Mehrfachantworten wird den Befragten die Möglichkeit eingeräumt, 
mehrere Kategorien anzukreuzen. Dies steht nur scheinbar im Wider- 
spruch zum Prinzip, dass sich die Antwortalternativen gegenseitig aus- 
schließen müssen, da hier mehrere Fragen in einer Frage (meist aus Platz- 
gründen) zusammengefasst werden. Mit der in Abbildung 4.2 dargestell- 
ten Frage werden z.B. Vereinsmitgliedschaften ermittelt. Hier sind meh- 
rere Nennungen möglich. Kreuzt ein Befragter ein Kästchen an, dann be- 
deutet dies, dass er „Mitglied“ in einem bestimmtem Vereinstyp ist; wird 
nichts angekreuzt, heißt dies, der Befragte ist „kein Mitglied“. Diese bei- 
den Antwortmöglichkeiten für jeden genannten Punkt (hier: Vereinstyp) 
schließen sich also gegenseitig aus. Die einzelnen Antworten müssen jeweils 
als eigene Variable kodiert werden. Als Ergebnis dieser Frage erhält man 
fünf Variablen mit jeweils zwei Antwortmöglichkeiten. Schnell et al. (2008, 
333 f.) schlagen zur Fehlervermeidung vor, jeweils beide Antwortmöglich- 
keiten vorzugeben. In Abbildung 4.2 müssten pro Verein also jeweils zwei 
Kästchen vorgegeben werden, die mit „Mitglied“ bzw. „kein Mitglied“ be- 
schriftet werden müssten. 


Eine besondere Form geschlossener Antwortkategorien sind Rating- 
Formate, wie sie auch für die bereits mehrfach verwendeten Aussagen 
zur Messung ausländerfeindlicher Einstellungen im ALLBUS 2006 ver- 
wendet wurden (Abbildung 4.3). Bei Rating-Formaten können Befragte 
ihre Beurteilung in abgestufter Form vornehmen (geordnete Antwortal- 
ternativen). Bei den ALLBUS-Items wurde eine siebenstufige, bipolare 
Skala von stimme überhaupt nicht zu — 1 - bis stimme voll und ganz 
zu — 7 — verwendet. Mit der Zuordnung der Zahlen wird bezweckt, dass 
die Abstände zwischen den Skalenpunkten von den Befragten als gleich 
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Abbildung 4.2: Frage mit Mehrfachantworten 


Sind Sie Mitglied eines Vereins? (Mehrfachnennungen möglich) 


Gesangverein m 
Sportverein = 
Heimatverein 
Caritativer Verein 
Anderer Verein 


interpretiert werden und die Items damit auf Intervallskalenniveau mes- 
sen. Diese Annahme ist prüfbar (vgl. Rost 2004). Häufig werden auch 
fünfstufige Antwortalternativen verwendet. Die Zahl der Antwortstufen 
hängt davon ab, in welcher Differenziertheit man von den Befragten eine 
Beurteilung erwarten kann. Die vorhandene Präferenz für Rating-Formate 
in Umfragen hängt auch damit zusammen, dass mit der Unterstellung 
gleicher Abstände zwischen den Skalenpunkten die Auswertung der Daten 
vereinfacht wird. 


Abbildung 4.3: Rating-Format mit sieben Stufen 


Stimme Stimme 
überhaupt voll und 
nicht zu ganz zu 


Diskutiert wird, ob man eine gerade oder - wie im Beispiel — ungera- 
de Zahl von Antwortkategorien vorgibt. Bei gerader Zahl der Kategorien 
existiert keine mittlere Position, wodurch die Befragten zu einer Positio- 
nierung in Richtung einer der beiden Enden der Skala gezwungen werden. 
Für die Vorgabe einer mittleren Kategorie spricht, dass man kognitiv sehr 
wohl eine neutrale Position einnehmen kann. Nachteilig wirkt es sich aller- 
dings aus, wenn Befragte die mittlere Kategorie wählen, um auszudrücken, 
dass sie keine Position zu diesem Item einnehmen. In diesem Fall misst 
man Pseudo-Meinungen (pseudo-opinions). Durch die explizite Vorgabe 
einer „Weiß-nicht“-Kategorie (vgl. das Beispiel in Abbildung 4.1) für Mei- 
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nungslosigkeit (non-attitude), kann man dies verhindern. Die „Weiß-nicht“- 
Kategorie sollte bei mehreren geordneten Antwortalternativen auf keinen 
Fall als Mittelkategorie verwendet werden. Ohne getrennte Erfassung der 
„Weiß-nicht“-Antworten kann man bei der Auswertung der Daten auch 
nicht mehr feststellen, ob eine fehlende inhaltliche Angabe auf Meinungslo- 
sigkeit (non-attitude) oder Antwortverweigerung (item-non-response) be- 
ruht. Es ist natürlich auch möglich, Befragte ohne Meinung zu filtern. 
Zunächst wird dann gefragt, ob eine Meinung zu einem konkreten The- 
ma vorhanden ist. Lediglich den Befragten mit einer Meinung werden die 
Antworten vorgelegt. Eine Filterführung für Meinungslosigkeit zeigt den 
Befragten die Legitimität einer solchen Beantwortung noch deutlicher als 
eine Antwortkategorie „weiß nicht“ (vgl. Schnell et al. 2008, 337). Ande- 
rerseits muss befürchtet werden, dass Meinungslosigkeit durch einen Filter 
überschätzt wird. Der Filter selbst mag als Hinweis auf eine schwierige 
folgende Frage interpretiert werden und auch Befragte, die eine Meinung 
haben, zu einer „Weiß-nicht“-Antwort bewegen. 


Die Wahl der Antwortkategorien bestimmt das Messniveau und damit 
die zulässigen Auswertungsverfahren. Gibt man auf die Frage „Sollte man 
Ihrer Meinung nach die doppelte Staatsbürgerschaft erlauben oder soll- 
te man die doppelte Staatsbürgerschaft nicht erlauben?“ die Antwortal- 
ternativen „sollte man erlauben“, „sollte man nicht erlauben“ und „weiß 
nicht“ vor, dann ist die Variable nominal skaliert. Man hätte aber auch 
eine fünfstufige Antwortskala von „stimme voll und ganz zu“ bis „lehne 
voll und ganz ab“ als Antwortalternative wählen können, wobei die Fra- 
ge dann nur noch eine der beiden Positionen enthalten kann, etwa: „Die 
doppelte Staatsbürgerschaft sollte erlaubt werden“. Dieses Merkmal wäre 
ordinal skaliert. 


4.1.3 Der Fragebogen 


Nach der Formulierung der einzelnen Fragen muss über deren Anordnung 
im Fragebogen nachgedacht werden. Nicht selten werden Interviews von 
Befragten abgebrochen, weil sie sich scheinbar endlos hinziehen oder zuviel 
Konzentration erfordern. 


Die Befragung wird meist durch so genannte Aufwärmfragen eingeleitet, 
mit denen man die Neugier und das Interesse des Befragten für das The- 
ma der Befragung wecken will. Aus diesem Grunde werden Fragen zur 
Demographie (Alter, Geschlecht usw.) in der Regel nicht zu Beginn der 
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Befragung gestellt. Stellt man demographische Angaben an den Anfang, 
dann riskiert man bei Befragten, die an der Anonymität ihrer Angaben 
zweifeln, eine Verweigerung des Interviews. Durch die Fragen zu ihrer Per- 
son können diese in der Befürchtung bestärkt werden, dass sie identifiziert 
werden könnten. Es kann jedoch auch sinnvoll sein, die Fragen zum ei- 
gentlichen Untersuchungsgegenstand nicht zu Beginn eines Interviews zu 
stellen, wenn diese unangenehme oder schwierige Sachverhalte betreffen. 
In diesem Fall kann man mit einer anderen, einfachen inhaltlichen Frage 
beginnen. Zu Anfang der Befragung gilt es, den Befragten für das Inter- 
view zu gewinnen, wobei die erste Frage von ausschlaggebender Bedeutung 
sein kann. 


Eine Grundregel für die Fragenanordnung bei Mehrthemenumfragen be- 
steht darin, Fragen zu einem Themenkomplex zusammenhängend zu stel- 
len. Auch die Fragen zur Demographie können in einem Block — meist 
am Ende des Interviews — gestellt werden. Gelegentlich ist die Trennung 
von Fragen zum selben Thema sinnvoll, um Halo-Effekte zu vermeiden. 
Darunter wird die unerwünschte Ausstrahlung einer Frage auf die nach- 
folgende Frage verstanden. So könnte z.B. die Frage, ob man für die To- 
desstrafe sei, nach mehreren Fragen zur Kriminalität in der Gesellschaft 
höhere Zustimmungswerte liefern, als wenn die Frage davor gestellt wird. 
Im ALLBUS 1990 wurde die Reihenfolge der Themenblöcke so festgelegt: 
Politik/Gesellschaft, AIDS, Soziale Normen, Deutsche Einheit, Demogra- 
phie, Gesellschaft und zuletzt noch ein paar statistische Angaben zum 
Interview, unter die die Sonntagsfrage gemischt wurde. Die Wahlabsichts- 
frage wurde aus dem Themenblock Gesellschaft/ Politik herausgenommen, 
um eine Beeinflussung durch zuvor gestellte Fragen möglichst gering zu 
halten. 


Ebenso sollten schwierig zu beantwortende Passagen mit einfachen Pas- 
sagen abwechseln, um die Konzentrationsfähigkeit der Befragten nicht zu 
sehr zu strapazieren. Aus diesem Grund sollte das Interview auch nicht 
zu lang sein. Allerdings können keine einheitlichen Angaben zur vertret- 
baren Länge eines Interviews gemacht werden. Die vertretbare Dauer des 
Interviews hängt von der Relevanz der abgefragten Themen für die Be- 
fragten und der Zielgruppe der Befragung ab. Nach Angaben von Hanefeld 
(1987, 235-238) wurden bei der ersten Welle des SOEP in der Stichprobe 
A „Deutsche“ zur Beantwortung des Haushaltsfragebogens durchschnitt- 
lich knapp 20 Minuten und zur Beantwortung des Personenfragebogens 
durchschnittlich rund 35 Minuten benötigt. In Tabelle 4.2 ist die Inter- 
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viewdauer für den ALLBUS 1994 und den ALLBUS 1998 wiedergegeben. 
Mehr als 35% der Interviews dauerten jeweils länger als eine Stunde. 


Tabelle 4.2: Interviewdauer bei ALLBUS-Umfragen 


Minuten 1994 1998 

20 bis 39 17% 9% 
40 bis 59 44% 54% 
60 bis 74 22% 25% 
75 bis 99 12% 9% 


mehr als 100 2% 1% 
keine Angabe 4% 2% 
100% | 100% 
(Befragte) (3450) | (3234) 


Filterfragen dienen dazu, das Interview abzukürzen, wenn auf den Be- 
fragten bestimmte Fragen nicht zutreffen. Fragen zum Ehepartner können 
beispielsweise übersprungen werden, wenn der Befragte nicht verheiratet 
ist. Ein Beispiel für eine Filterfrage ist die Parteiidentifikation (vgl. Ab- 
bildung 4.4), mit der eine langfristig stabile psychologische Bindung an 
eine Partei gemessen werden soll. Der Befragte soll zunächst angeben, ob 
er überhaupt einer Partei zuneigt (Frage 30 in Abbildung 4.4). Wie man 
anhand der Angaben für den Interviewer am rechten Rand des Fragebo- 
gens sehen kann, geht der Befragte bei einer „Ja“-Antwort auf Frage 31, 
wo er die Partei angeben soll, verneint er die Frage 30, springt er dagegen 
auf Frage 32. 


In mündlichen und telefonischen Befragungen lassen sich mehr und kom- 
plexere Filter einsetzen, da diese Befragungen von Interviewern durch- 
geführt werden, die dafür geschult sind. In schriftlichen Umfragen sollte 
dagegen mit Filtern sparsam umgegangen werden. Sie sollten durch den 
Befragten leicht nachvollziehbar sein und durch ein entsprechendes Layout 
des Fragebogens unterstützt werden. Der ALLBUS 1990, dem wir unsere 
Beispiele entnommen haben, wurde mündlich durchgeführt. Computerge- 
stützte Befragungen (auch Web-Surveys) erlauben den Einsatz komplexer 
Filter, weil die Software die Filterführung übernimmt. 


Vor allem bei einer schriftlichen Befragung ist das Layout des Fragebo- 
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Abbildung 4.4: Parteiidentifikationsfrage im ALLBUS 1990 


30. | Viele Leute in der Bundesrepublik neigen e e er ER NETTE S-ÄAN 
längere Zeit einer bestimmten politischen Partei CT 3 
zu, obwohl sie auch ab und zu mal eine andere Nein 
Partei wählen. Wie ist das bei Ihnen: 32 
Neigen Sie - ganz allgemein gesprochen - Verweigert š o 2 
einer bestimmten Partei zu? 
sans 
CDU bzw. CSU Cl 
31. | Sagen Sie mir bitte auch noch, welche Partei Së 
das ist? SPD f o Di 
DI 
Falis „andere Partei", nachfragen: weiche? ] F.D.P 
— Bes NPD BL 
SH 
DKP e 
Die Grünen O= 
: De 
Alternative Liste 
sew ` (le 
Die Republikaner . U» 
Andere Partei, und zwar: 
Verweigert Or 
u a fian oo u wanns 
32 Nun zu einem ganz anderen Thema SÉ. WS m) ec KR 
Haben Sie schon einmal von der Krankheit FE” et echt all ` 39 
AIDS gehört? Nein . 


gens wichtig. Eine übersichtliche Gestaltung erleichtert das Ausfüllen des 
Fragebogens. Bei der persönlichen und telefonischen Befragung spielt das 
Layout dagegen keine so große Rolle, da der Interviewer sich vor der Be- 
fragung mit dem Fragebogen (in gedruckter oder elektronischer Form) 


vertraut machen kann. 


Ob die Befragten mit den Fragen und dem Fragebogen zurechtkommen, 
wird mit Pretests überprüft. Bei einem Pretest wird der Fragebogen und 
gegebenenfalls einzelne Fragen vor der eigentlichen Befragung an einer 
Stichprobe aus der Zielpopulation getestet. Pretests geben unter ande- 
rem Aufschluss über Probleme im Verständnis oder der Anordnung von 
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Fragen, über das Antwortverhalten, über den zeitlichen Umfang der Befra- 
gung, über Abbruchquoten etc. Für Pretests wurden verschiedene Tech- 
niken entwickelt. Zur Überprüfung des Verständnisses einzelner Fragen 
bieten sich kognitive Pretests an. Dabei werden die gegebenen Antworten 
hinterfragt, die Befragten werden aufgefordert, den Antwortprozess laut 
zu artikulieren oder die Frage mit eigenen Worten zu wiederholen (vgl. die 
Anwendung dieser Techniken bei Kurz et al. 1999). Eine quantitativ orien- 
tierte Methode zum Pretest von CATI-Interviews findet sich bei Faulbaum 
et al. (2003). Bevor die Umfrage ins Feld geht, muss in jedem Fall der kom- 
plette Fragebogen getestet werden. Dabei zeigt sich, ob die Filterführung 
und Kodierung der Variablen funktioniert, welche Fragen Nachfragen der 
Befragten verursachen, wie hoch die Antwortverweigerung ist, ob die Ant- 
worten der Befragten variieren usw. Die Stichprobe sollte ausreichend groß 
sein, um solche Probleme festzustellen. 


4.1.4 Der Ablauf der Befragung 


Nach der Entwicklung des Fragebogens werden zunächst die Befragten 
ausgewählt. Wie dies geschieht und was dabei zu beachten ist, werden wir 
in Kapitel 9 behandeln. 


Die Ankündigung des Interviews soll auf den Besuch des Interviewers und 
das Thema der Befragung vorbereiten. Der Interviewer kann dann bei 
seinem Besuch noch einmal Näheres zur Fragestellung erläutern. Schrift- 
liche und telefonische Interviews werden in der Regel nicht angekündigt, 
auch wenn dies möglich wäre. In einer schriftlichen Befragung wird im 
Anschreiben die Fragestellung der Untersuchung erklärt, in welchem Auf- 
trag die Untersuchung durchgeführt wird usw. Dieses Anschreiben ist für 
die Teilnahmebereitschaft einer ausgewählten Person von Bedeutung. Am 
schwierigsten ist es sicher, einen Befragten am Telefon zur Teilnahme- 
bereitschaft zu bewegen. Die Hemmschwelle, hier einfach aufzulegen, ist 
nicht besonders hoch. 


Der nächste Punkt ist die Zusicherung von Anonymität. Grundsätzlich 
gilt für die Durchführung seriöser Umfragen, dass die Angaben der Be- 
fragten vertraulich behandelt werden. Adressen usw. sollten getrennt von 
den Antworten aufbewahrt und später vernichtet werden. Es darf keine 
Identifizierung, eine Verknüpfung der Daten mit anderen Informationen 
oder eine Weitergabe der Daten ohne vorherige Anonymisierung erfolgen. 
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Dies sollte auch dem Befragten klar gemacht werden. Ob die Anonymi- 
tät der Befragung tatsächlich gewährleistet ist, kann von den Befragten 
allerdings nicht kontrolliert werden. Bei der mündlichen und telefonischen 
Umfrage, bei denen die Adresse bzw. Telefonnummer des Befragten dem 
Interviewer bekannt sind, sollte dem Befragten deshalb glaubhaft versi- 
chert werden, dass seine Angaben vertraulich behandelt werden. Bei der 
schriftlichen Befragung ist diese Zusicherung für den Befragten leichter 
nachvollziehbar, wenn der Fragebogen ohne Angabe eines Absenders zu- 
rückgesendet werden soll. Allerdings ist eine schriftliche Befragung nur 
dann anonym, wenn die Fragebögen nicht mit einem eindeutigen Code 
gekennzeichnet sind, der die Zuordnung zum Befragten ermöglicht. Ei- 
ne Kennzeichnung der Fragebögen erfolgt häufig, um diejenigen Personen, 
die nach einer Weile noch keinen Fragebogen zurückgesandt haben, erneut 
anzuschreiben und um Beantwortung zu bitten. 


Während der Befragung sollte der Befragte mit dem Interviewer alleine 
sein und sich ganz auf die Befragung konzentrieren können. Außerdem 
sollte die Befragungsperson nicht durch andere Einflüsse gestört werden. 
Solche Umgebungsbedingungen lassen sich kontrollieren, indem sie vom 
Interviewer erfasst werden und damit für die Auswertung der Daten ver- 
fügbar sind. Dies ist allerdings nur bei der mündlichen Befragung gut 
praktizierbar, während beim Telefoninterview externe Einflüsse meist nur 
erahnt werden können. Beim schriftlichen Interview ist eine Information 
über die Befragungssituation völlig unmöglich. Zu den Umgebungsbedin- 
gungen gehören auch bewusste und unbewusste Beeinflussungen durch den 
Interviewer. Unbewusste Interviewereffekte treten bei mündlichen und te- 
lefonischen Befragungen immer auf (vgl. Koch 1991; Reinecke 1991). Für 
das Antwortverhalten mancher Befragter spielt es eben eine Rolle, wel- 
chem Interviewer man gegenüber sitzt (jung oder alt, Mann oder Frau 
usw.). Auch am Telefon kann ein solcher Effekt durch die Stimme oder 
den Dialekt des Interviewers verursacht werden. 


Das folgende Beispiel für einen Interviewereffekt basiert auf Daten des 
ALLBUS 1990. Dort wurde mit mehreren Statements versucht, abwei- 
chendes Verhalten zu erfassen. Der Fragetext lautete: „Bitte sagen Sie mir 
jeweils mit Hilfe dieser Liste, ob Sie persönlich das beschriebene Verhalten 
für sehr schlimm, ziemlich schlimm, weniger schlimm oder für überhaupt 
nicht schlimm halten.“ Eines der Statements auf der Liste lautete: „Ein 
Mann zwingt seine Ehefrau zum Geschlechtsverkehr.“ Wie man der nach- 
folgenden Tabelle 4.3 entnehmen kann, unterscheidet sich das Antwort- 
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verhalten der Männer danach, ob sie von einem Mann oder einer Frau 
interviewt werden. Während das Geschlecht des Interviewers das Ant- 
wortverhalten der weiblichen Befragten nicht beeinflusst, zeigt sich bei 
den männlichen Befragten, dass diese eine Vergewaltigung in der Ehe für 
weniger schlimm halten, wenn sie von Männern interviewt werden. So sa- 
gen zwar rund 70% der Männer, die von Frauen interviewt werden, das 
beschriebene Verhalten sei ‚sehr schlimm“, aber nur 62,5% der Männer, 
die von Männern interviewt werden. (Es handelt sich um einen Interakti- 
onseffekt, wie wir aus Kapitel 2.3 wissen.) 


Tabelle 4.3: Interviewereffekt bei der mündlichen Befragung 


(Spaltenprozente) 
Männliche Befragte Weibliche Befragte 
Antwort Männl. Int. | Weibl. Int. | Männl. Int. | Weibl. Int. 


62,5% 69,9% 71,1% 


Sehr schlimm 


Ziemlich schlimm 29,1% 23,0% 24,4% 25,6% 
Weniger schlimm 6,7% 5,6% 3,9% 2,9% 
Gar nicht schlimm 1,8% 1,5% 0,6% 


Befragte 
Quelle: ALLBUS 1990 


Der Interviewer kann auch bewusst eine Befragung beeinflussen oder sogar 
insgesamt fälschen (vgl. Dorroch 1994; Koch 1995; Schnell 1991). Solche 
Formen von Betrug gibt es immer wieder, vor allem bei mündlichen Befra- 
gungen, wo der Interviewer das Interview weitgehend selbst in der Hand 
hat. Er kann zum Beispiel absichtlich eine falsche Filterführung anwen- 
den, um das Interview abzukürzen. Oder er füllt gleich den ganzen Fra- 
gebogen selbst aus. Solchen Interviewerfälschungen kommt man auf die 
Spur, indem man die für das Interview ausgewählten Personen anruft und 
nachfragt, ob auch tatsächlich ein Interview stattgefunden hat. Mit die- 
ser Nachfrage kann man allerdings nicht kontrollieren, ob ein Interviewer 
lediglich einen Teil des Interviews ordnungsgemäß durchgeführt hat und 
den „Rest“ des Fragebogens selbst ergänzt hat. Telefonische Umfragen bie- 
ten dagegen eine umfassende Kontrollmöglichkeit der Interviewer, wenn 
sie in einem Telefonstudio durchgeführt werden, wo ein „Supervisor“ die 
Durchführung der Interviews überwachen kann. Auch computergestützte 
persönliche Befragungen sind schwerer zu fälschen. 
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4.2 Beobachtung 


Die Beobachtung (vgl. Grümer 1974; Friedrichs und Lüdtke 1977) wird 
in den Sozialwissenschaften eher stiefmütterlich behandelt, obwohl sie für 
einen Teil der Fragestellungen durchaus sinnvoll verwendet werden könn- 
te. Als eines der wenigen politikwissenschaftlichen Beispiele kann hier die 
von Raschke (1991) durchgeführte Beobachtung einer Bundesdelegierten- 
versammlung der GRÜNEN genannt werden. 


Wissenschaftliche Beobachtungen unterscheiden sich von Beobachtungen 
im Alltag vor allem durch systematisches und an Hypothesen orientiertes 
Vorgehen. Ziel der Beobachtung ist das „Erfassen von Ablauf und Be- 
deutung einzelner Handlungen und Handlungszusammenhänge“ (Krom- 
rey 2006, 346). Im Vergleich zur Befragung, wo über Verhalten lediglich 
Aussagen gewonnen werden, richtet sich die Beobachtung direkt auf das 
Verhalten der Subjekte. 


Eine besondere Schwierigkeit bei der Durchführung einer Beobachtung 
besteht darin, alle Ereignisse einer sich ständig verändernden Situation 
wahrzunehmen. Welche Ereignisse registriert werden, hängt stark von der 
selektiven Wahrnehmung des Beobachters ab. Aus diesem Grund ist die 
Beobachtung ein relativ subjektives Verfahren. Eine Kontrolle, ob der Be- 
obachter die für die Untersuchung bedeutsamen Ereignisse erfasst hat, 
ist normalerweise nicht möglich, es sei denn, die Beobachtung wird mit 
technischen Hilfsmitteln, also z.B. Film- oder Videokamera, aufgezeich- 
net. Auch Filmaufnahmen sind jedoch selektiv und liefern keine ‚objek- 
tiven‘ Informationen. Wie bei der Befragung der Interviewer, stellt bei 
der Beobachtung der Beobachter also eine mögliche Fehlerquelle dar, die 
zu einer Verzerrung der Resultate führen kann. Die einzige Möglichkeit, 
solche Fehler zu minimieren, besteht in der Schulung der Beobachter. 


Nach Friedrichs (1990) lassen sich Beobachtungen danach unterscheiden, 
ob sie verdeckt oder offen, teilnehmend oder nicht teilnehmend, struk- 
turiert oder unstrukturiert, in künstlichen oder natürlichen Situationen 
stattfinden. 


e Bei einer verdeckten Beobachtung nehmen die Beobachteten den Be- 
obachter nicht wahr, während bei einer offenen Beobachtung - z.B. 
der oben erwähnten Analyse des Verhaltens der Parteitagsdelegierten 
— der Beobachter als solcher auch auftritt. 
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Eine verdeckte Beobachtung wird dann notwendig, wenn ansonsten 
überhaupt keine Beobachtung stattfinden könnte. Interessiert man sich 
für interne Strukturen einer verbotenen politischen Vereinigung, so 
ist eine offene Beobachtung wahrscheinlich nicht möglich. Ethisch be- 
denklich sind verdeckte Beobachtungen immer, wenn man davon aus- 
gehen kann, dass die Beobachteten Einwände gegen die Beobachtung 
haben. In einem solchen Fall muss man schon gewichtige Gründe ins 
Feld führen, um die Beobachtung zu rechtfertigen. 

Verdeckte Beobachtungen besitzen gegenüber offenen Beobachtungs- 
formen allerdings den Vorteil, dass sie die zu beobachtenden Ereignisse 
nicht beeinflussen, also ein nicht reaktives Messverfahren darstellen. 
Bei einer teilnehmenden Beobachtung ist der Beobachter aktiv ins Ge- 
schehen einbezogen, während er bei einer nicht teilnehmenden Beob- 
achtung auf die Beobachtung beschränkt bleibt. Bei der nicht teilneh- 
menden Beobachtung eines Parteitages z.B. kommt dem Beobachter 
ein reiner Beobachtungsstatus zu. Eine teilnehmende Beobachtung lä- 
ge dann vor, wenn der Beobachter gleichzeitig Parteitagsdelegierter 
wäre. 

Bei einer teilnehmenden Beobachtung werden die Ereignisse, die beob- 
achtet werden sollen, durch das Handeln des Beobachters beeinflusst. 
Zudem besteht die Gefahr, dass der Beobachter durch seine aktive 
Rolle die Distanz zum sozialen Geschehen verliert und dadurch die 
Perspektive der zu Beobachtenden - z.B. der Parteitagsdelegierten — 
annimmt. Außerdem könnte der Beobachter auch einfach überfordert 
sein, denn schließlich verlangt eine teilnehmende Beobachtung nicht 
nur die sorgfältige Wahrnehmung der Situation, sondern gleichzeitig 
auch noch aktives Handeln. 

Einer strukturierten Beobachtung liegt ein zuvor entwickeltes detail- 
liertes Kategorienschema zugrunde, in das die Beobachtungen einge- 
tragen werden. Bei unstrukturierten Beobachtungen ist die Beobach- 
tung in einem erheblich geringeren Umfang durch vorherige Festle- 
gungen geprägt. Unstrukturierte Beobachtungen sind vor allem bei 
geringen Kenntnissen über die zu beobachtende Situation sinnvoll. In 
diesem Fall hat die Beobachtung zunächst einmal explorativen Cha- 
rakter. 

Künstlich ist eine Beobachtung dann, wenn die Beobachtung in einer 
Laborsituation stattfindet, d.h. die Umgebungsbedingungen gezielt 
hergestellt und verändert werden können. Solche „Experimente“ haben 
den entscheidenden Vorteil, dass man Kausalität nachprüfen kann. 
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Durch die Kontrollgruppen und gesteuerten Versuchsbedingungen ist 
die interne Validität der Laborbeobachtung sehr hoch. Wie bereits in 
Kapitel 2 deutlich wurde, sind jedoch nicht alle Fragestellungen für 
Experimente geeignet. Vor allem die mangelnde Übertragbarkeit auf 
natürliche Umgebungen spricht gegen künstliche Beobachtungen, d.h. 
sie weisen nur eine geringe externe Validität auf. 


Diese Unterscheidungskriterien lassen sich nun auf vielfältige Art und Wei- 
se zu unterschiedlichen Typen von Beobachtungen kombinieren. In der 
Praxis sind allerdings nur einige wenige Kombinationen von Interesse. Für 
Politikwissenschaftler kommen vor allem offene, systematische Beobach- 
tungen in natürlichen Umgebungen in Frage. Möchte man Entscheidungs- 
strukturen auf Parteitagen der unterschiedlichen Parteien untersuchen, so 
ist es beispielsweise nicht notwendig, verdeckt zu arbeiten. Im folgenden 
werden wir uns — wie schon bei der Befragung — auf eine strukturierte 
Erhebungsform beschränken. 


4.2.1 Kategorienentwicklung 


Während die Messinstrumente bei einer Befragung aus einer oder mehre- 
ren Fragen bestehen, stellt die Beobachtungskategorie das Messinstrument 
bei der Beobachtung dar. Als Messinstrument für die Beteiligung von De- 
legierten und Vorstandsmitgliedern an einem Parteitag könnten z.B. die 
Beobachtungskategorien „Anzahl der Redebeiträge von Delegierten“ und 
„Anzahl der Redebeiträge von Vorstandsmitgliedern“ herangezogen wer- 
den. Die Merkmalsausprägungen sind bei diesen beiden Variablen die Häu- 
figkeit. Zudem könnte die „Redelänge“ oder die „Reaktion der Delegierten“ 
erfasst werden. Die Merkmalsausprägungen könnten hier z. B. die Länge in 
Minuten bzw. die Klassifizierungen „zurückhaltend“, „enthusiastisch“ usw. 
sein. Für die Beobachtungskategorien gilt dasselbe wie für die Antwortvor- 
gaben bei einer Befragung: Sie müssen sich gegenseitig ausschließen und 
vollständig sein. 


Nehmen wir an, wir interessieren uns dafür, ob sich die Beteiligung von 
Männern und Frauen im Studierendenparlament (im folgenden StuPa) 
unterscheidet. Unter „Beteiligung“ können wir die Anwesenheit, Redebei- 
träge und Zwischenrufe in StuPa-Sitzungen verstehen. Damit haben wir 
also drei abhängige Variablen, die als Indikator für politische Beteiligung 
im StuPa dienen. Als unabhängige Variable müssen wir auf jeden Fall das 
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Geschlecht heranziehen. Auch hier ist natürlich wichtig, dass keine Beob- 
achtungskategorie (dies entspricht einer Frage im Fragebogen) vergessen 
wird. Es könnte ja sein, dass die Anwesenheit nicht nur vom Geschlecht, 
sondern auch von der politischen Einordnung abhängt. Wir könnten z.B. 
vermuten, dass die Mitglieder der Opposition im StuPa in einem gerin- 
geren Umfang ihr Mandat wahrnehmen als die regierenden Parteien. Wir 
müssen also bei jeder und jedem Anwesenden vermerken, ob es sich um 
eine Frau oder einen Mann, ein Mitglied der Opposition oder der Ko- 
alition handelt. Auch der zweite Indikator für politische Beteiligung, die 
Redebeiträge, könnten auf diese Art und Weise operationalisiert werden. 
Zusätzlich könnten wir hier noch die Länge für relevant erachten. Viel- 
leicht gibt es zwar nicht mehr Redebeiträge von Männern als von Frauen, 
Männer und Frauen könnten sich jedoch in der Dauer ihrer Redebeiträge 
unterscheiden. Ebenso wie die Anwesenheit und die Redebeiträge könnten 
wir noch die Zwischenrufe nach dem Geschlecht notieren. 


Bereits die wenigen hier verwendeten Kategorien werden die Aufmerksam- 
keit des Beobachters in vollem Umfang in Anspruch nehmen. Zudem wird 
vorausgesetzt, dass er sich mit der Situation relativ gut auskennt. Um 
die politische Richtung zu notieren, muss der Beobachter alle im StuPa 
anwesenden Mitglieder einordnen können. Sind im StuPa viele Gruppie- 
rungen vertreten, so wird diese Einordnung schon ziemlich schwierig. Die 
gleichzeitige Erfassung von Redebeiträgen und Zwischenrufen ist für einen 
einzigen Beobachter alleine wohl nicht mehr durchführbar. 


Schon an diesem kleinen Beispiel wird deutlich, warum ein Beobachtungs- 
schema in der Regel weniger Kategorien enthält als ein Fragebogen Fragen 
beinhaltet: Die Aufmerksamkeit des Beobachters kann sich immer nur auf 
einige wenige Merkmale richten. 


4.2.2 Beobachtungsschema 


Alle Beobachtungskategorien werden in einem Beobachtungsschema bzw. 
Beobachtungsprotokoll zusammengefasst. Dem Beobachtungsprotokoll 
entspricht bei der Befragung der Fragebogen. Anhand dieses Beobach- 
tungsprotokolls wird die Beobachtung durchgeführt. 


Die Zusammenfassung der Beobachtungskategorien in ein Beobachtungs- 
schema sollte so erfolgen, dass der Beobachter möglichst schnell seine Ein- 
tragungen vornehmen kann. Ob das Beobachtungsschema praktikabel ist 
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und alle relevanten Kategorien erfasst wurden, kann in einer Testbeobach- 
tung geprüft werden. Ein fiktives Beobachtungsschema für die Anwesen- 
heit und die Redebeiträge in StuPa-Sitzungen ist in Abbildung 4.5 zu se- 
hen: Zunächst trägt der Beobachter einen Namen, das Datum der Sitzung 
und die Uhrzeit ein. Danach folgt eine Tabelle, in der für jedes anwesen- 
de StuPa-Mitglied eine Zeile vorgesehen sein muss, in die das Geschlecht 
und die politische Zugehörigkeit einzutragen ist (maximal sind hier also 
so viele Zeilen wie Mandatsträger notwendig). Auf einem / mehreren neu- 
en Blättern können dann die Redebeiträge festgehalten werden. Bei der 
Interpretation der Daten muss man beachten, dass das eine Mal Merkma- 
le von Personen, das andere Mal Merkmale von Redebeiträgen erhoben 
werden. 


4.2.3 Ablauf einer Beobachtung 


Zunächst müssen die Situationen festgelegt werden, die beobachtet werden 
sollen. Wollen wir die Hypothese untersuchen, dass sich die Entscheidungs- 
strukturen auf den Parteitagen zwischen den einzelnen Parteien unter- 
scheiden, dann sind die relevanten Situationen Parteitage. Zudem müssen 
wir den Untersuchungszeitraum festlegen und eine räumliche Abgrenzung 
vornehmen. Im genannten Beispiel könnten dies die Parteitage innerhalb 
eines Jahres in der Bundesrepublik Deutschland sein. 


Ebenso wichtig wie die Schulung von Interviewern ist die Schulung der 
Beobachter. Aufgrund der Selektivität der Wahrnehmung werden unter- 
schiedliche Beobachter zu unterschiedlichen Ergebnissen gelangen. Das 
Ausmaß, in dem verschiedene Beobachter dieselben Dinge wahrnehmen, 
wird Inter-Coder-Reliabilität genannt. Durch genaue Anweisungen und 
Beispiele kann die Inter-Coder-Reliabilität erhöht werden. Daneben kann 
esim Verlauf einer Beobachtung dazu kommen, dass der Beobachter - z.B. 
durch einen Lernprozess — dieselben Ereignisse unterschiedlich einordnet. 
Die Stabilität der Einordnung derselben Beobachtungsinhalte durch einen 
Beobachter wird Intra-Coder-Reliabilität genannt. Das Ausmaß der Inter- 
Coder-Reliabilität und der Intra-Coder-Reliabilität ist ein Maß für die 
Qualität der Beobachtung. 


Möglicherweise ist es — wie erwähnt - sinnvoll, das Beobachtungsschema 
vorab auf Praktikabilität zu testen. Bei manchen offenen Beobachtungen 
wie den Parteitagen oder den StuPa-Sitzungen bietet es sich an, die Be- 
obachtung vorher anzukündigen. 
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Abbildung 4.5: Fiktives Beobachtungsprotokoll einer StuPa-Sitzung 


ALLGEMEINE ANGABEN 

Beobachter: 

Datum: 

Uhrzeit (Beginn und Ende): 

ANWESENDE 
Geschlecht Politische Einordnung 
Nr. weiblich männlich Koalition Opposition 
1 
2 
3 
4 
5 
6 
= 
8 
9 
u.s.w 
REDEBEITRÄGE 
Geschlecht Politische Einordnung | Länge 
Nr. | weiblich | männlich | Koalition | Opposition | Minuten 
1 
2 
3 
4 
5 
6 
7 
8 
9 
u.s.w 


4.3 Inhaltsanalyse 


Bei der Inhaltsanalyse gewinnt man Informationen über die soziale Wirk- 
lichkeit durch die Analyse von „Inhalten“. Inhalte können Texte, Filme, 
Bilder o.Ä. sein. Das Ziel der Inhaltsanalyse kann man auf den Nenner 
bringen: „Wer sagt was zu wem, wie, warum und mit welchem Effekt?“ 
(Friedrichs 1990, 319). Die Anwendung der Inhaltsanalyse (vgl. Früh 2007; 
Merten 1995; Weber 1990) erfolgt vor allem im Bereich der Massenkom- 
munikation und hat deshalb innerhalb der Publizistik einen hohen Stel- 
lenwert. In der Politikwissenschaft bieten sich zahlreiche Verwendungs- 
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möglichkeiten wie die Analyse von Parteiprogrammen, politischen Reden, 
Flugblättern und Wahlplakaten an (vgl. Rucht et al. 1995). 


Der wesentliche Vorteil der Inhaltsanalyse besteht darin, dass die Inhal- 
te nicht zum Zweck der Untersuchung geschaffen wurden. Zeitungsartikel 
werden für die Leser der Zeitung geschrieben, nicht für den Wissenschaft- 
ler, der die Artikel nach bestimmten Kriterien auswertet. Anders aus- 
gedrückt: Die Inhalte werden nicht vom Erhebungsinstrument bestimmt 
oder beeinflusst. Aus diesem Grund ist die Inhaltsanalyse ein nicht reak- 
tives Messverfahren, d.h. die Ergebnisse der Untersuchung hängen nicht 
von der Methode ab. Wie bei der Befragung und der Beobachtung un- 
terscheidet sich die wissenschaftliche von der alltäglichen Inhaltsanalyse 
durch die systematisierte und objektivierte Vorgehensweise. Auch Inhalts- 
analysen können nach dem Grad der Strukturierung unterschieden werden; 
wir werden lediglich auf die quantitative Inhaltsanalyse eingehen (vgl. zur 
qualitativen Inhaltsanalyse Mayring 2007). 


Zunächst muss festgelegt werden, was überhaupt analysiert werden soll. 
Wollen wir z.B. die inhaltlichen Schwerpunkte der Parteien nach Politik- 
bereichen untersuchen, dann könnten die Parteiprogramme die Textgrund- 
lage sein. Für diese Texte muß der Merkmalsträger, d.h. die Zähleinheit 
bestimmt werden. Als Zähleinheit könnten wir z.B. die Sätze der Partei- 
programme verwenden. Ebenso gut könnten aber auch kleinere Einheiten 
(z. B. einzelne Wörter) oder größere Einheiten (z. B. Absätze oder einzelne 
Abschnitte des Parteiprogramms) ausgewählt werden. Den Zähleinheiten 
entsprechen bei der Beobachtung die Situationen, bei der Befragung die 
Befragten. 


Der schwierigste Teil einer Inhaltsanalyse besteht darin, Kategorien zu ent- 
wickeln, die die theoretischen Begriffe messen. An das Kategorienschema 
sind hier die gleichen Anforderungen zu stellen wie bei der Beobachtung: 
Sie müssen sich gegenseitig ausschließen und vollständig sein. Kategorien 
für den Untersuchungsgegenstand „Politikbereiche“ könnten z.B. „Innen- 
politik“, „Außenpolitik“, „Wirtschaftspolitik“ usw. sein. Auch hier kann 
eine Kategorie „Sonstiges“ für nicht explizit genannte Kategorien sinnvoll 
sein. Das Kategorienschema ist in der Regel natürlich nicht so einfach wie 
im vorgestellten Beispiel. Aus diesem Grund ist es sinnvoll, erst einmal 
einen Pretest an einer geringen Anzahl von Analyseeinheiten durchzufüh- 
ren und die Kategorien unter Umständen abzuändern. 
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Die Kodierung ist die Zuordnung der Zähleinheiten zu den Kategorien. Die 
Inhaltsanalyse ist abgeschlossen, wenn alle Analyseeinheiten kodiert sind. 
Im vorliegenden Beispiel könnte man z.B. die Analyseeinheiten der ein- 
zelnen Parteiprogramme zusammenfassen. Für jedes Programm könnten 
wir dann sagen, wie häufig auf die Wirtschaftspolitik, Sozialpolitik usw. 
Bezug genommen wurde. Wenn man davon ausgeht, dass aus der Häu- 
figkeit einer Kategorie auf die Bedeutung eines Politikbereiches für eine 
Partei geschlossen werden kann, könnte das Ergebnis einer Inhaltsanalyse 
sein, dass das SPD-Programm stärker sozialpolitisch bestimmt wird als 
das CDU-Programm, der Schwerpunkt des FDP-Programms dagegen auf 
der Wirtschaftspolitik liegt usw. 


Einfache Inhaltsanalysen begnügen sich damit, die Häufigkeit des Vorkom- 
mens der einzelnen Kategorien auszuwerten („Frequenzanalyse“). Weiter- 
gehende inhaltsanalytische Ansätze berücksichtigen zudem Bewertungen 
(„Bewertungsanalyse“) oder Zusammenhänge zwischen Kategorien (,„Kon- 
tingenzanalyse“), d.h. wie häufig tauchen die einzelnen Kategorien im 
Zusammenhang mit anderen Kategorien auf. Bei einer Bewertungsana- 
lyse der Parteiprogrammatik würde man also nicht nur eine Aussage zur 
Gewerbesteuer als Aussage zum Politikbereich Wirtschaft kennzeichnen, 
sondern berücksichtigen, ob diese negativ oder positiv bewertet wird. 


Die Zuverlässigkeit der Inhaltsanalyse beinhaltet auch hier wieder zwei 
Aspekte: Die Inter-Coder-Reliabilität ist hoch, wenn verschiedene Ver- 
coder dieselben Analyseeinheiten in dieselben Kategorien einordnen. Die 
Intra-Coder-Reliabilität ist hoch, wenn die Zuordnung einer Analyseein- 
heit zu einer Kategorie durch einen einzigen Vercoder stabil ist. Die Inter- 
Coder-Reliabilität lässt sich hier sehr einfach überprüfen, indem man un- 
terschiedlichen Codierern dieselben Texte vorlegt. 


Stellt man fest, dass das Kategorienschema nicht angemessen war, also 
z.B. wesentliche Dimensionen fehlten, dann kann man die Inhalte pro- 
blemlos erneut auswerten. Dies ist ein wesentlicher Vorteil der Inhaltsana- 
lyse gegenüber der Beobachtung. 
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Aufgaben zu Erhebungsmethoden 


1. Studierende der Politikwissenschaft sollen zu ihrem Studium befragt 
werden. Was ist an den einzelnen Fragen „faul“? Wie können diese 
besser formuliert werden? 

a) Wie hoch schätzen Sie die durchschnittlichen Kosten eines Hochschulstudiums 
ein? 
Euro 


b) Sind Sie für eine Straffung des Studiums und die Einführung von Studiengebühren 
für Langzeitstudierende? 


Ja seen kein 
Nein =... en nee ne ne a en ana nn ee nee EI 
c) Wie häufig essen Sie in der Mensa? 
Tägliche ee a ee ee nee 
Zwei- bis dreimal wöchentlich `... oO 
Mehr als einmal wöchentlich `... 
Seltener anne ee AE eer EE EE ETE aD o 
IEN o 
Mei micht seis sin tes ne a a ee ENEE (mm 
d) Welche Gründe waren ausschlaggebend für die Wahl ihres Studienfachs? 
(Mehrfachnennungen möglich!) 
Gute Berufsperspektiven `... oO 
Dér Studienort sen... o 
Selbstverwirklichung,. ee au Zeg Seegen ESA e o Ae ee D 
leh mochte indie Politik +2... e deier eu LI 
el Sind Sie nicht der Meinung, dass der AStA nicht die Interessen der Studierenden 
vertritt? 
Pl: NND RE INNERER GER NEUNERGE N RER. ARE TE IR SE NE DIENEN BE TBREHE RC NREREIEN HR TONER HERREN oO 
Weiß nicht. 222 deg ee a ae han EE ee ea o 
ELE EE EE LI 


f) Halten Sie es für angemessen, dass Studierende, die von der Nutzung öffentlicher 
Verkehrsmittel, die im Rahmen der biannual anfallenden Semesterbeiträge bereits 
vorfinanziert wurde, absehen, eine reduzierte Studiengebühr entrichten? 


a eebe eet eege o 
ËU LC) 
Wei nicht ele ee een e ee 


g) In welchem Fachsemester studieren Sie? 


2. Wann bieten sich geschlossene Fragen an, wann offene? 


5 Tabellen und Graphiken 


Dan KE NEE 100 
5.2. Graphiken eee ea e TEE E a nenn 110 


Sobald die Datenerhebung abgeschlossen ist, kann mit der Auswertung 
begonnen werden. In der Regel werden die Daten zunächst in maschinen- 
lesbare Form gebracht, um sie dann mit Hilfe eines Statistik-Programms 
wie z. B. SPSS, SAS oder Stata auswerten zu können. Dies ist jedoch nicht 
immer notwendig. Einfache Analysen können — wenn auch mit einem er- 
heblich höheren Zeitaufwand — mit der Hand bzw. dem Taschenrechner 
durchgeführt werden. 


Man kann sich leicht vorstellen, dass schon in einer Umfrage mit weni- 
gen Befragten der Überblick über die Antworten zur „Wahlsonntagsfrage“, 
die die Wahlabsicht der Befragten misst, ohne eine Zusammenfassung der 
Nennungen für die verschiedenen Parteien verloren geht. In der Regel be- 
ginnt deshalb jede Analyse mit einer Häufigkeitsauszählung der interessie- 
renden Merkmalsausprägungen, die dann tabellarisch oder graphisch dar- 
gestellt werden. Untersucht man die Verteilung eines einzigen Merkmals, 
dann spricht man von univariater Analyse. Betrachtet man dagegen die 
gemeinsame Verteilung von zwei oder mehr Merkmalen, dann spricht man 
von bivariater bzw. multivariater Analyse. 


5.1 Tabellen 


5.1.1 Tabellarische Darstellung eines Merkmals 


Zunächst will man in der Regel wissen, wie stark die einzelnen Ausprä- 
gungen einer Variable besetzt sind. Wie viele Befragte geben z.B. an, 
am nächsten Sonntag die CDU, SPD usw. zu wählen? Um dies heraus- 
zufinden, führt man eine Häufigkeitsauszählung der einzelnen Kategorien 
durch. Als Resultat erhält man eine Häufigkeitsverteilung. 


Üblicherweise wird ein Merkmal bzw. eine Variable mit einem großen latei- 
nischen Buchstaben bezeichnet. Beispielsweise soll es um die Wahlabsicht 
gehen. Diese wird dann als X bezeichnet. Dieses Merkmal X kann ganz 
bestimmte Merkmalsausprägungen annehmen („CDU/CSU*, „SPD“ etc.). 
Die Merkmalsausprägungen werden als x, bezeichnet, wobei der Index k 
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eine fortlaufende Nummerierung der Merkmalsausprägungen (Kategorien) 
meint und dementsprechend von 1 bis zur maximalen Merkmalsausprä- 
gung m läuft. k wird deshalb als Laufvariable oder Laufindex bezeichnet 
und tief gestellt (vgl. Tabelle 5.1). 


Tabelle 5.1: Notation bei Häufigkeitsauszählungen 


Kategorie 
(Merkmalsausprägung) Bezeichnung 
CDU/CSU a 

SPD x 
FDP T3 
NPD T4 

B’ 90/GRÜNE Ts 
REP T6 
Andere Partei £7 
Wähle nicht T8 
Verweigert T9 
Weiß nicht 210 
Keine Angabe zu 


Absolute Häufigkeiten geben die Anzahl der Merkmalsträger wieder, 
die eine bestimmte Merkmalsausprägung aufweisen. Absolute Häufigkei- 
ten einer Merkmalsausprägung sind ohne eine Berücksichtigung der Ge- 
samtzahl der Merkmalsträger nicht interpretierbar. Wenn 100 Befragte 
CDU wählen wollen, sagt das gar nichts über die Chancen der CDU aus, 
wenn man nicht weiß, wie viele Befragte insgesamt eine Wahlabsicht geäu- 
ßert haben. Man muss also wissen, welchen Anteil eine absolute Häufig- 
keit an allen Häufigkeiten hat. Relative Häufigkeiten (Anteil der Merk- 
malsträger in einer bestimmten Kategorie) oder Prozentwerte (relative 
Häufigkeit x 100) werden berechnet, indem die absolute Häufigkeit einer 
Kategorie ins Verhältnis zur Gesamtzahl der Merkmalsträger n gesetzt 
wird. Merkmalsträger werden auch als Fälle bezeichnet. 


Absolute Häufigkeiten werden als f+, bezeichnet (f steht für engl. frequen- 
cy — Häufigkeit). Für relative Häufigkeiten gibt es keine eigene Notation, 
Prozentwerte werden durch das nachgestellte Prozentzeichen (%) kennt- 
lich gemacht. 
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Absolute Häufigkeit = fr, 


he d Far Jar 
Relative Häufigkeit = ` = CC 
EE Gesamtzahl der Merkmalsträger n 


Prozentwert = Relative Häufigkeit x 100 


Absolute Häufigkeiten können Werte zwischen 0 und +00 annehmen. Dar- 
aus folgt, dass relative Häufigkeiten immer einen Bruch zwischen zwei po- 
sitiven Zahlen darstellen, wobei der Nenner immer größer oder gleich dem 
Zähler ist, da die absolute Häufigkeit einer einzelnen Merkmalsausprägung 
nicht größer als die Gesamtzahl der Merkmalsträger sein kann. Relative 
Häufigkeiten können deshalb nur Werte zwischen 0 und 1 annehmen. Da 
ein Prozentwert einfach die Multiplikation einer relativen Häufigkeit mit 
100 darstellt, können Prozentwerte nur im Bereich von 0% bis 100 % lie- 
gen. 


In Tabelle 5.2 auf der gegenüberliegenden Seite ist eine Häufigkeitsaus- 
zählung der „Wahlsonntagsfrage“ aus dem ALLBUS 1994 dargestellt.! 692 
Befragte gaben an, CDU/CSU zu wählen, wenn am nächsten Sonntag 
Wahlen stattfänden. Ohne die Gesamtzahl der Befragten (2.298) zu be- 
rücksichtigen, ist dieser Wert nicht sehr aussagekräftig. Aus diesem Grund 
sind in den beiden darauf folgenden Spalten die relativen Häufigkeiten und 
die Prozentwerte angegeben. Demnach würden sich 30,1% der Befragten 
für die CDU/CSU entscheiden. Da relative Häufigkeiten und Prozentwerte 
dieselben Informationen liefern, gibt man in Tabellen nur einen der beiden 
Werte — in der Regel die Prozentwerte — an. 


Prozentzahlen sind natürlich nur dann sinnvoll interpretierbar, wenn die 
Größe der Prozentuierungsbasis bekannt ist. Es macht nämlich für 
die Bedeutung des Wertes einen Unterschied, ob 75% der Befragten, die 
ein bestimmtes Waschmittel favorisieren, 3 von insgesamt 4 befragten Per- 
sonen oder 3.000 von 4.000 sind. Im ersten Fall würde der Wechsel einer 
Person in das „andere Lager“ gleich das Verhältnis auf 100% bzw. 50% 
verändern. Im letzten Fall würde sich der Wechsel einer Person lediglich 
in einer Verschiebung auf 75,025 % bzw. 74,975% ausdrücken. 


1 Inder Stichprobe sind Ostdeutsche überrepräsentiert (ca. 32% Ost- und 68% West- 
deutsche). Da es vorläufig um die Beschreibung von Stichprobendaten geht, haben 
wir auf eine personenbezogene Ost-West-Gewichtung verzichtet. 
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Tabelle 5.2: Häufigkeitsauszählung der Wahlabsicht im ALLBUS 1994 


Wahlabsicht absolute relative 
Häufigkeit | Häufigkeit | Prozente 

Tk fer % 
CDU/CSU 692 0,301 30,1 
SPD 856 0,372 37,2 
FDP 200 0,087 8,7 
Bündnis 90/Grüne 316 0,138 13,8 
Republikaner 72 0,031 3,1 
PDS 120 0,052 5,2 
Andere Partei 42 0,018 1,8 
Summe 2298 1,000 100,0 


Genauso bedeutend wie die Größe der Prozentuierungbasis ist die Art 
der Prozentuierungsbasis. Als Beispiel soll wiederum die Wahlabsicht 
dienen. Dazu betrachten wir Tabelle 5.3 auf der folgenden Seite. In der 
Spalte „abs. H.“ werden die absoluten Häufigkeiten, in der Spalte „X“ die 
Prozentwerte wiedergegeben. Unter der Spalte „Alle“ werden die absoluten 
Häufigkeiten aller Kategorien aufgelistet. Von allen 3.450 Befragten in 
dieser Umfrage gaben 692 an, CDU/CSU wählen zu wollen, 856 die SPD 
usw. 570 Befragte wussten noch nicht, was sie wählen wollen. 


In der dritten und vierten Spalte der Tabelle wurden nur die Befragten 
berücksichtigt, die eine Partei angegeben haben; bei einer Wahl wären 
dies die gültigen Stimmen. Die Prozentwerte der vierten Spalte geben da- 
her die Anteile der Parteien an den „gültigen Stimmen“ wieder. In der 
fünften und sechsten Spalte der Tabelle wurden dagegen die Antworten 
aller wahlberechtigten Befragten betrachtet. Die Prozentwerte der sechs- 
ten Spalte können daher als Anteil der Parteien an den Wahlberechtigten 
bezeichnet werden. Wie man leicht feststellen kann, unterscheiden sich die 
Prozentangaben der vierten und sechsten Spalte beträchtlich. 


Bei Prozentangaben ist außerdem zu beachten, ob es sich bei diesen tat- 
sächlich um relative Häufigkeiten (x 100) oder um Angaben der Grö- 
kenveränderung handelt. Angaben der Größenveränderung lassen sich 
nämlich als Steigerungsrate oder als Differenz zweier Prozentangaben aus- 
drücken. So haben z.B. Bündnis 90/Grüne bei der Bundestagswahl 1990 
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Tabelle 5.3: Häufigkeitsauszählung der Wahlabsicht mit unterschied- 
licher Prozentuierungsbasis 


Art der Prozentuierungsbasis 
Alle Abg. gültige Stimmen Wahlberechtigte 

Wahlabsicht abs. H. | abs. H. % abs. H. % 
CDU-CSU 692 692 30,1 692 21,0 
SPD 856 856 37,2 856 26,0 
FDP 200 200 8,7 200 6,1 
Bündnis 90/Grüne 316 316 13,8 316 9,6 
Republikaner 72 72 3,1 72 2,2 
PDS 120 120 5,2 120 3,6 
Andere Partei 42 42 1,8 42 1,3 
Würde nicht wählen 245 u = 245 7,4 
Verweigert 145 e = 145 4,4 
Weiß nicht 570 = = 570 17,3 
Keine Angabe 36 = = 36 Li 
Nicht wahlberechtigt 156 -= -= -= = 

Summe 3450 2298 100,0 3294 100,0 


zusammen einen Anteil von 5,05% der Zweitstimmen erzielt.” Bei der 
Bundestagswahl 1994 lag der Stimmanteil bei 7,3% der Zweitstimmen. 
Dies kann man einmal als Steigerung von 2,25 Prozentpunkten (7,3 - 5,05) 
ausdrücken oder als Steigerungsrate von 44,6 Prozent, um die der Anteil 
1994 höher ausgefallen ist als 1990 |(7,3 - 5,05)/5,05 x 100]. 


5.1.2 Kreuztabellen 


Mit Hilfe von Kreuztabellen wird die gemeinsame Verteilung von zwei 
Merkmalen abgebildet. Da mit Hilfe von Kreuztabellen ein Zusammen- 
hang zwischen Merkmalen festgestellt werden kann, spricht man auch von 
Kontingenztabellen oder Kontingenztafeln. 


2 Die Grünen und das Bündnis ’90 traten zur Wahl 1990 noch nicht als vereinte 
Partei an. Da die 5%-Klausel auf die Wahlgebiete West und Ost getrennt ange- 
wandt wurde, konnte das Bündnis 90 mit 6,05% im Wahlgebiet Ost die 5%-Hürde 
überwinden, die Grünen scheiterten mit 4,75% im Wahlgebiet West jedoch an der 


5 %-Klausel. 
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Unabhängige und abhängige Variablen 


Bei bi- und multivariaten Analysen wird häufig zwischen abhängigen und 
unabhängigen Variablen unterschieden. Als abhängig werden die Varia- 
blen bezeichnet, die erklärt werden sollen, weshalb diese auch zu erklä- 
rende Variablen genannt werden. Als unabhängig werden die Variablen 
betrachtet, die (vermutlich) einen Einfluss auf die abhängige Variable aus- 
üben. Die unabhängigen Variablen werden auch erklärende Variablen ge- 
nannt. Zum Beispiel könnte die Wahlabsicht als abhängige und die Bildung 
als unabhängige Variable betrachtet werden. Wir vermuten also, dass die 
Wahlabsicht vom Bildungsniveau beeinflusst wird. Zur Kennzeichnung der 
Richtung des Zusammenhangs wurde im folgenden Schaubild ein Pfeil ver- 
wendet, dessen Spitze auf die abhängige Variable gerichtet ist. 


Bildung => Wahlabsicht 


Unabhängige Variable Abhängige Variable 


Erklärende Variable Zu erklärende Variable 


Mit der Unterscheidung von unabhängiger und abhängiger Variable wird 
ein kausaler Einfluss der unabhängigen auf die abhängige Variable un- 
terstellt; im Beispiel also, dass verschiedene Bildungsabschlüsse ein un- 
terschiedliches Wahlverhalten verursachen. In Ex-Post-Facto-Designs soll 
durch die Kontrolle von Drittvariablen sichergestellt werden, dass ein sta- 
tistischer Zusammenhang nicht für eine kausale Beziehung gehalten wird 
(vgl. Kapitel 2.3). Deshalb muss man sich vor der Durchführung einer 
Untersuchung, spätestens jedoch vor der Analyse bi- oder multivariater 
Zusammenhänge, Gedanken um mögliche „dritte“ Einflussfaktoren auf die 
zu erklärende Variable machen. 


Ob eine bestimmte Variable als abhängig oder unabhängig betrachtet 
wird, kann von Untersuchung zu Untersuchung und selbst innerhalb einer 
Untersuchung wechseln. Der eine Forscher möchte die Wahlabsicht durch 
die Bildung erklären (also: Bildung — Wahlabsicht), ein anderer die Bil- 
dung durch den sozialen Status des Elternhauses (also: sozialer Status der 
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Eltern — Bildung). Die Bestimmung der abhängigen Variable resultiert 
aus dem Untersuchungsinteresse, die Bestimmung der unabhängigen Va- 
riable(n) aus der zugrunde gelegten Theorie bzw. den Hypothesen. 


In einer Kreuztabelle werden alle Kombinationen der Merkmalsausprä- 
gungen zweier Variablen ausgezählt. Es entstehen so Zeilen und Spalten 
einer Tabelle. In den deutschen Sozialwissenschaften wird die unabhän- 
gige Variable normalerweise in den Spalten und die abhängige Variable 
in den Zeilen abgetragen. Gerade in Statistikbüchern (vgl. z.B. Agres- 
ti und Finlay 2008) ist allerdings auch häufiger die abhängige Variable in 
den Spalten und die unabhängige in den Zeilen zu finden. Wichtig ist, dass 
die zur Beantwortung der Fragestellung richtige Prozentuierung berechnet 
wird. 


In Tabelle 5.4 auf der gegenüberliegenden Seite ist eine Kreuztabellierung 
der Merkmale Schulabschluss (als Indikator für Bildung) und Wahlab- 
sicht dargestellt. 367 Personen mit Hauptschulabschluss (HS) wollen die 
CDU/CSU wählen, 453 die SPD usw. Von den Befragten mit Realschulab- 
schluss (RS) wollen 182 die CDU/CSU wählen und von den Befragten mit 
Abitur bzw. Fachhochschulreife (Abitur) äußern 119 eine Präferenz für die 
CDU. Am Ende jeder Zeile und jeder Spalte ist die Summe dieser Zeile 
bzw. Spalte wiedergegeben. Die Spalte, die mit „Summe“ überschrieben 
ist, gibt die Häufigkeitsverteilung der abhängigen Variable an; diese wird 
auch als Randverteilung der abhängigen Variable bezeichnet. Die Randver- 
teilung der unabhängigen Variable findet sich in der letzten, mit „Summe“ 
beschriebenen Zeile. In der Ecke unten rechts steht die Gesamtsumme 
der Merkmalsträger, die in die Tabelle eingehen (2.218). Hier sind es die 
Befragten, die eine Partei genannt haben und für die der Schulabschluss 
bekannt ist. 


Die absoluten Häufigkeiten lassen sich aber schlecht vergleichen. Absolut 
gesehen, wollen zwar erheblich mehr Befragte mit Hauptschulabschluss 
Christdemokraten und Christsoziale wählen (367) als Befragte mit Real- 
schulabschluss (182) bzw. Abitur (119). Allerdings gibt es auch wesentlich 
mehr Befragte mit Hauptschulabschluss (1086) als Befragte mit Realschul- 
abschluss (665) bzw. Befragte mit Abitur (467). 


Übt die unabhängige Variable einen Einfluss auf die abhängige Variable 
aus, dann unterscheidet sich die prozentuale Verteilung der abhängigen 
Variablen für jede Ausprägung der unabhängigen Variablen. 
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Tabelle 5.4: Kreuztabelle der Wahlabsicht mit dem Schulabschluss — ab- 
solute Häufigkeiten 


Schulabschluss 
Wahlabsicht HS RS Abitur | Summe 
CDU/CSU 
SPD 453 244 131 828 
FDP 77 71 49 197 
Bündnis 90/Grüne 89 90 125 304 
Republikaner 43 20 2 65 
PDS 42 43 32 117 
Andere Partei 15 15 9 39 


Summe 


Spalten-, Zeilen- und Totalprozente 


Man muss also auch hier wieder die relativen Häufigkeiten bzw. Prozent- 
werte angeben. Dabei muss man beachten, dass sich in einer Kreuztabelle 
immer drei verschiedene Prozentwerte berechnen lassen: Zeilen-, Spalten- 
und Totalprozente. Zur Berechnung von Zeilenprozenten wird die Zei- 
lensumme als Prozentuierungsbasis (= 100%) genommen; bei Spalten- 
prozenten die Spaltensumme (= 100%). Schließlich kann man die Häu- 
figkeiten auf Basis der Gesamtsumme prozentuieren (Totalprozente). 
Damit sind drei inhaltlich völlig verschiedene Aussagen verbunden. Ver- 
wendet man die Zeilensumme als Prozentuierungsbasis, bezeichnet der 
Prozentwert einen Anteil an der Ausprägung des Merkmals in der Zeile. 
Verwendet man die Spaltensumme, bezeichnet der Prozentwert einen An- 
teil an der Ausprägung des Merkmals in der Spalte. Verwendet man die 
Gesamtsumme, bezeichnet der Prozentwert einen Anteil an allen Fällen, 
die in die Tabelle eingegangen sind. 


In Tabelle 5.4 ließe sich der Anteil der Befragten mit Hauptschulabschluss 
an allen potentiellen CDU/CSU- Wählern mit 367/668 x 100 = 54,9% be- 
rechnen (Zeilenprozente). Der Anteil der potentiellen CDU/CSU- Wähler 
an allen Befragten mit Hauptschulabschluss berechnet sich dagegen mit 
367/1086 x 100 — 33,8% (Spaltenprozente). Von den Befragten mit 
Hauptschulabschluss wollen also 33,8% die CDU/CSU wählen. 54,9% der 
Befragten mit einer CDU/CSU-Wahlabsicht haben einen Hauptschulab- 
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schluss. Totalprozente werden nicht so häufig benötigt; von allen Befrag- 
ten haben genau 16,5% (367/2218 x 100) einen Hauptschulabschluss und 
eine Wahlabsicht für die CDU/CSU. Totalprozente werden vor allem be- 
rechnet, um Aussagen über die Stabilität eines Merkmals zwischen zwei 
Zeitpunkten zu treffen (vgl. Kapitel 2.4). 


Zusätzlich zu den absoluten Häufigkeiten sind in Tabelle 5.5 die Spal- 
tenprozente und in Tabelle 5.6 auf der gegenüberliegenden Seite die Zei- 
lenprozente angegeben. Die Prozentwerte sind kursiv hervorgehoben. In 
der Summenspalte findet sich die univariate Verteilung des Merkmals, das 
in den Zeilen steht (hier: Wahlabsicht), in der Summenzeile des Merk- 
mals, das in den Spalten steht (hier: Bildung). Die Prozentwerte in der 
Summenspalte in Tabelle 5.5 entsprechen der prozentualen Verteilung der 
abhängigen Variable - hier der Wahlabsicht.? 


Tabelle 5.5: Kreuztabelle der Wahlabsicht mit Bildung — absolute Häu- 
figkeiten und Spaltenprozente 


Schulabschluss 

Wahlabsicht HS RS Abitur Summe 

CDU/CSU 367 33,8 | 182 27,4 | 119 25,5 | 668 30,1 
SPD 453 41,7% | 244 36,7 | 131 28,1 828 31,3 
FDP ST 7,1 71 10,7 | 49 10,5 | 197 8,9 
Bündnis 90/Grüne 89 82| 90 13,5 | 125 26,8 | 304 13,7 
Republikaner 43 4,0 | 20 3,0 2 0,4 65 2,9 
PDS 42 3,9| 43 6,5 | 32 6,9 | 117 5,3 
Andere Partei 15 1,4 15 2,3 9 1,9 39 1,8 
Summe 1086 100,0 | 665 100,0 | 467 100,0 | 2218 100,0 


Prozentuiert man spaltenweise, dann muss man zeilenweise interpretieren: 
Wie man anhand der Spaltenprozentwerte in der Tabelle 5.5 sieht, wol- 
len 33,8% der Befragten mit Hauptschulabschluss CDU/CSU wählen, aber 
nur 25,5 % der Befragten mit Abitur. Bündnis 90/Grüne wollen 26,8% der 
Befragten mit Abitur wählen, aber nur 8,2% der Befragten mit Haupt- 
schulabschluss und 13,5 % der Befragten mit Realschulabschluss. Der Pro- 


3 Die Prozentwerte unterscheiden sich von den in Tabelle 5.2 auf Seite 103 angegebe- 
nen, weil wir von den 2.298 Befragten, die eine Wahlabsicht angegeben haben, nur 
von 2.218 Personen den Schulabschluss kennen. 
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zentsatz der Befragten mit Abitur, die Bündnis 90/Grüne angeben, ist 
also verglichen mit dem Anteil, den die Grünen bei allen Befragten erzie- 
len (13,7%), überdurchschnittlich hoch. Gerade umgekehrte Verhältnis- 
se zeigt die Wahlabsicht zugunsten der Republikaner. 4% der Befragten 
mit Hauptschulabschluss wollen diese Partei wählen, aber nur 0,4% der 
Befragten mit Abitur, wobei die Republikaner bei allen Befragten 2,9% 
erzielen. 


Bei zeilenweiser Prozentuierung wird spaltenweise interpretiert: Der Sum- 
menzeile von Tabelle 5.6 kann man entnehmen, dass insgesamt 49% 
der Befragten einen Hauptschulabschluss haben, 30% einen Realschul- 
abschluss und 21,1% Abitur. Hauptschüler sind unter den Wählern der 
CDU/CSU (54,9%), der SPD (54,7%) und der Republikaner (66,2 %) 
überproportional vertreten. Die Wählerschaft der Grünen weist dagegen 
mit 41,1% einen stark überdurchschnittlichen Anteil an Befragten mit 


Abitur auf. 


Tabelle 5.6: Kreuztabelle der Wahlabsicht mit dem Schulabschluss- ab- 
solute Häufigkeiten und Zeilenprozente 


Schulabschluss 

Wahlabsicht HS RS Abitur Summe 

CDU/CSU 367 54,9 | 182 27,2 | 119 17,8 | 668 100,0 
SPD 453 54,7 | 244 29,5 | 131 15,8 | 828 100,0 
FDP 77391 71 36,0| 49 24,9\ 197 100,0 
Bündnis 90/Grüne 89 293| 90 29,6 | 125 41,1 | 304 100,0 
Republikaner 43 66,2 | 20 30,8 2 3,1 65 100,0 
PDS 42 35,9] 43 36,8 | 32 274 117 100,0 
Andere Partei 15 383 15 383 9 283,1 39 100,0 
Summe 1086 49,0 | 665 30,0 | 467 21,1 | 2218 100,0 


Zur Präsentation von Tabellen gibt es keine einheitlichen Regeln. Das Lay- 
out der Tabelle sollte so gehalten sein, dass im Tabellenkopf die Spalten 
bezeichnet werden und am linken Tabellenrand die Zeilen. Je nach in- 
haltlicher Interpretation werden Zeilen- oder Spaltenprozente angegeben. 
Möchte man beide verwenden, so bietet es sich an, nur eine Tabelle zu 
erstellen, in der sowohl die absoluten Häufigkeiten als auch Zeilen- und 
Spaltenprozente stehen. Aus der Tabelle muss zudem die Größe und die 
Art der Prozentuierungsbasis hervorgehen. 
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5.2 Graphiken 


5.2.1 Unterschiedliche Arten graphischer Darstellungen 


Säulen- und Balkendiagramme 


Bei einem Säulendiagramm werden die Daten durch vertikale (stehende) 
Rechtecke („Säulen“) wiedergegeben, beim Balkendiagramm durch hori- 
zontale (liegende) Rechtecke („Balken“). 


Bei einem Balkendiagramm werden die Ausprägungen des Merkmals auf 
der vertikalen Achse abgetragen. Die Länge der mittig über den Kategori- 
en eingezeichneten Balken entspricht den absoluten Häufigkeiten (relativen 
Häufigkeiten oder Prozentwerten) der Merkmalsausprägungen. Zwischen 
den Balken bleibt Platz. In Abbildung 5.1 wurde die schon bekannte Fra- 
ge nach der Wahlabsicht als Balkendiagramm dargestellt. Die Länge der 
Balken entspricht den prozentualen Anteilen der einzelnen Parteien. Da es 
sich hier um ein nominal skaliertes Merkmal handelt, ist die Anordnung 
der Balken beliebig. 


Abbildung 5.1: Balkendiagramm der Wahlabsicht 


CDU/CSU : 


SPD 


Partei 


j t t j t 
0 10 20 30 40 50 60 


% gültige Stimmen 
Quelle: ALLBUS 1994, n=2.298 


Anstelle von Balkendiagrammen kann man ebenso gut Säulendiagramme 
verwenden. Ein Säulendiagramm der Wahlabsicht ist in Abbildung 5.2 auf 
der nächsten Seite wiedergegeben. Hier werden die Ausprägungen auf der 
horizontalen Achse abgetragen. 
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Abbildung 5.2: Säulendiagramm der Wahlabsicht 


60 


ee ].2. 


CDU/CSU 
GER = 


204-- 


% gültige Stimmen 


10-4-- Gs ee ee 


PDS 


Se Andere 
Pe 


Partei 
Quelle: ALLBUS 1994, n—2.298 


Balken- und Säulendiagramme sind vor allem zur Darstellung nominal- 
und ordinal skalierter Variablen geeignet. Bei ordinal skalierten Merkma- 
len muss allerdings die Reihenfolge der Balken bzw. Säulen die Rangord- 
nung der Merkmalsausprägungen wiedergeben. Die Breite der Balken oder 
Säulen ist beliebig, da diese nicht interpretiert werden kann. Balken- und 
Stabdiagramme eignen sich ebenfalls zur Darstellung diskreter, metrischer 
Merkmale mit einer überschaubaren Zahl von Ausprägungen, wie z. B. die 
Zahl der Kinder. 


Mit Balkendiagrammen lässt sich auch der Zusammenhang zwischen zwei 
(und mehr) Merkmalen darstellen. In Abbildung 5.3 ist der Zusammen- 
hang zwischen der Schulbildung und einer geringfügigen Beschäftigung 
getrennt für Männer und Frauen visualisiert. Man sieht deutlich, dass das 
Niveau der Schulbildung bei Frauen einen Einfluss auf eine geringfügige 
Erwerbstätigkeit hat, nicht jedoch bei Männern. Weil die entsprechenden 
Fallzahlen Tabelle 2.1 (S.28) entnommen werden können, wurde hier auf 
eine Angabe verzichtet. Steht die Tabelle alleine, müsste hier eigentlich 
die Zahl der Frauen mit geringer Schulbildung, die Zahl der Frauen mit 
mittlerer/höherer Schulbildung, die Zahl der Männer mit geringer Schul- 
bildung und die Zahl der Männer mit mittlerer/höherer Schulbildung an- 
gegeben werden, weil diese der Prozentuierung zugrunde liegen. 
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Abbildung 5.3: Mini-/Midi-Job nach Schulabschluss und Geschlecht 


30 


o — 


Frauen Männer 
E niedriger Schulabschluss Dimittlerer/hoher Schulabschluss 


Quelle: SOEP, Welle W (gewichtet) 


Kreisdiagramme 


In Abbildung 5.4 sind die Angaben zur Wahlabsicht als Kreisdiagramm 
dargestellt. Die Größe der Kreissegmente ist proportional zur relativen 
Häufigkeit der jeweiligen Merkmalsausprägung. Kreisdiagramme eignen 
sich vor allem zur Illustration der Verteilung nominaler Merkmale. 


Abbildung 5.4: Kreisdiagramm der Wahlabsicht (gültige Stimmen in 
Prozent) 


B90/Grüne 
14% 


Quelle: ALLBUS 1994, n=2.298 
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Histogramme und Linienzüge 


Histogramme und Linienzüge dienen der Darstellung stetiger Merkmale. 
Sie werden aber auch bei diskreten metrischen Merkmalen eingesetzt, die 
sehr viele Ausprägungen annehmen können, wie z.B. Einkommen. 


Für die graphische Darstellung wird das Merkmal zunächst in benachbarte 
Klassen zusammengefasst. Bei Histogrammen werden die Messwerte durch 
Rechtecke über den Klassen symbolisiert, die unmittelbar aneinander an- 
grenzen. Dies ist auch der auffälligste Unterschied zu Balken- und Säulen- 
diagrammen. Die Fläche über den Klassen (Höhe x Breite der Rechtecke) 
ist proportional zu den absoluten bzw. relativen Häufigkeiten. Verbindet 
man die Mittelpunkte der Rechteckoberkanten durch Linien, dann erhält 
man einen Polygonzug. Für Linienzüge bzw. Polygone gilt das soeben Ge- 
sagte. Auch hier gibt die Fläche unter dem Linienzug Auskunft über die 
Häufigkeit/Anteile der Messwerte. Ob man sich für einen Linienzug oder 
ein Histogramm entscheidet, ist reine Geschmacksache. In Abbildung 5.5 
wird das Alter der Teilnehmer zweier Statistik-Kurse sowohl durch ein 
Histogramm als auch durch einen Linienzug dargestellt. 


Abbildung 5.5: Alter von Kursteilnehmern 
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Quelle: eigene Umfrage, n=59 


Will man zwei verschiedene Verteilungen in einer Graphik darstellen, 
so bietet es sich an, ein Merkmal durch ein Histogramm, das andere 
durch einen Polygonzug darzustellen. Linienzüge eignen sich besonders 
für Zeitreihenanalysen. Ein Beispiel haben wir bereits im Kapitel 2.4 ken- 
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nengelernt, wo die Entwicklung der Anteile der Personen, die sich mit einer 
Partei identifizieren, für Ost- und Westdeutschland dargestellt wurde. 


Zur Darstellung nominaler und ordinaler Merkmale sollten die Rechte- 
cke nicht aneinander gezeichnet werden, weil dies suggerieren würde, dass 
Differenzen zwischen Merkmalsausprägungen interpretierbar seien. In Ka- 
pitel 3.3.1 wurde von dieser Regel abgewichen (Abbildung 3.3), weil bei 
den vier Items metrisches Messniveau unterstellt wurde. Wir werden in 
Kapitel 7.6 Streudiagramme kennen lernen, mit deren Hilfe der Zusam- 
menhang zwischen zwei metrischen Merkmalen dargestellt werden kann. 


Kartogramme 


In Kartogrammen werden Merkmale geographischer Einheiten abgetragen. 
Die einzelnen Merkmalsausprägungen werden dabei durch unterschiedliche 
Schraffuren oder Farben repräsentiert. 


Die Karte in Abbildung 5.6 auf der gegenüberliegenden Seite zeigt den 
Wähleranteil, den die NSDAP bei den Reichstagswahlen am 5. März 1933 
in den einzelnen Stadt- und Landkreisen erzielen konnte. Je dunkler die 
Schraffur, umso höher der NSDAP-Anteil. Ganz dunkel sind die Stadt- 
und Landkreise dargestellt, in denen die NSDAP mehr als 50 % der Stim- 
men erhielt; ganz hell die Stadt- und Landkreise, in denen der NSDAP- 
Anteil unter 30 % lag. Zur Darstellung mussten die Prozentwerte gruppiert 
werden. Würde man jedem Prozentwert eine unterschiedliche Schraffur zu- 
weisen, dann wäre das Kartogramm nicht mehr interpretierbar. Die Wahl 
der Kategoriegrenzen beeinflusst das Aussehen des Kartogramms natürlich 
entscheidend, was bei der Interpretation einer solchen Graphik berücksich- 
tigt werden muss. 
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5.2.2 Missbrauch graphischer Darstellungen 


Manchmal werden graphische Darstellungen bewusst oder unbewusst so 
gewählt, dass die eigene Interpretation der Daten gestützt wird. Meistens 
handelt es sich um Fahrlässigkeiten bei der Erstellung der Graphiken, 
manchmal jedoch auch um bewusste Manipulationen. Anhand des schon 
bekannten Beispiels zur Wahlabsicht wollen wir die Auswirkungen falscher 
Darstellungsweisen demonstrieren. 


In Abbildung 5.7 ist dargestellt, wie sich eine Veränderung des Mafstabs 
der Einheiten der y-Achse auf die Aussagekraft der Graphik auswirkt. Ei- 
gentlich wäre die Skalierung nur dann korrekt, wenn sie von 0% bis 100% 
gehen würde, da ja theoretisch eine Partei 100% der Stimmen bekommen 
kann. Außerdem wäre dann leicht erkennbar, wie viel eine Partei vom „gan- 
zen Kuchen“ bekommen hat. Diese Darstellung ist im linken Diagramm 
in Abbildung 5.7 zu sehen. Der Nachteil dieser Darstellung besteht darin, 
dass die Unterschiede zwischen den Parteien nicht sehr deutlich ausfallen, 
da keine Partei mehr als 40% Stimmen erhält und damit nicht einmal die 
Hälfte der Höhe der Graphik ausgeschöpft wird. 


Abbildung 5.7: Wahlabsicht bei Veränderung des y-Achsen-Maßstabes 
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Um die Unterschiede hervorzuheben, könnte man deshalb den umgekehr- 
ten Weg einschlagen und die Skalierung nur von 0% bis 40% vornehmen, 
wie in der rechten Graphik in Abbildung 5.7 zu sehen ist. Die Unterschie- 
de zwischen den Parteien werden dadurch stärker hervorgehoben. Die in 
Abbildung 5.2 auf Seite 111 gewählte Skalierung kann als ein Kompromiss 
zwischen diesen beiden extremen Darstellungen angesehen werden. 
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Falsch wäre es, wenn die Größenskala nicht bei null begänne. In Abbil- 
dung 5.8 wird dies anhand der Stimmanteile für CDU und SPD ver- 
deutlicht. Während in der linken Graphik die korrekte Darstellung be- 
nutzt wurde, zeigt die rechte Graphik lediglich den Achsenausschnitt zwi- 
schen 20% und 40%. Dadurch werden die Größenverhältnisse zwischen 
CDU/CSU und SPD dramatisiert. 


Abbildung 5.8: Wahlabsicht mit korrekter und falscher Grundlinie 
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Zahlreiche Beispiele für Manipulationen graphischer Darstellungen finden 
sich bei Krämer (1991), wie man es richtig machen sollte bei Krämer 
(1994). 
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Aufgaben zu Tabellen und Graphiken 


1. In der folgenden Tabelle ist das Wahlergebnis der Reichstagswahl vom 
14. September 1930 wiedergegeben. Bitte ermitteln Sie die Wahlbetei- 
ligung und den Anteil der ungültigen Stimmen. Prozentuieren Sie die 
Stimmen für die einzelnen Parteien (a) auf Basis der gültigen Stimmen 
und (b) auf Basis der Wahlberechtigten. Warum wird in der Regel auf 
gültige Stimmen prozentuiert? 


Tabelle 5.7: Ergebnis der Reichstagswahl vom 14. September 1930 


Wahlergebnis 
Wahlberechtigte 42.957.675 
Abgegebene Stimmen 35.225.758 
Ungültige Stimmen 254.901 
Gültige Stimmen 34.970.857 
KPD 4.592.090 
USPD 11.902 
SPD 8.577.738 
DDP 1.322.385 
Zentrum 4.127.910 
BVP 1.059.141 
DVP 1.659.774 
DNVP 2.458.246 
NSDAP 6.409.610 
Sonstige 4.752.061 


2. Bei der Reichstagswahl 1932 erzielte die NSDAP 37,3% der gültigen 
Stimmen. Um wie viel Prozent und um wie viele Prozentpunkte stieg 
der Anteil der Nationalsozialisten im Vergleich zur Reichstagswahl von 
1930? 

3. Bitte stellen Sie das Wahlergebnis der Reichstagswahl 1930 graphisch 
dar! Welche Diagramme können zur Darstellung verwandt werden? 
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4. Auf die im ALLBUS 1994 gestellte Frage, „Und wie wird Ihre eigene 
wirtschaftliche Lage in einem Jahr sein?“, konnten die Befragten von 
„wesentlich besser“ bis „wesentlich schlechter“ antworten. In Tabelle 
5.8 sind die Antworten getrennt für west- und ostdeutsche Befragte 
wiedergegeben: 


Tabelle 5.8: Wirtschaftliche Einstellungen im ALLBUS 1994 


West Ost | Summe 
wesentlich besser 38 22 60 
etwas besser 348 254 602 
gleichbleibend 1588 661 2249 
etwas schlechter 293 119 412 
wesentlich schlechter 23 21 44 
Summe 2290 1077 3367 


Bitte berechnen Sie Spalten-, Zeilen- und Totalprozente. Interpretieren 
Sie die inhaltliche Aussage der Tabelle! 


6 Lage- und Streuungsmaße 


6.1. Tagemäße u... ga a deg EE 122 
6.2 Streuüngsmaße vorn. ne east 130 


Im vorangegangenen Kapitel wurden Häufigkeitsverteilungen sowie deren 
Darstellung durch Tabellen und Graphiken behandelt. In diesem Kapitel 
werden nun statistische Maßzahlen. vorgestellt, die die zentrale Lage einer 
Verteilung und die Streuung der Messwerte charakterisieren. 


In Tabelle 6.1 ist die Studiendauer von 11 Absolventen der Politikwissen- 
schaft wiedergegeben (das Beispiel ist fiktiv). In der linken Tabelle liegen 
die Messwerte der einzelnen Personen als Urliste vor, d.h. so, wie wir sie 
willkürlich nacheinander notiert haben. Um die Übersichtlichkeit zu erhö- 
hen, wurden die Messwerte nach ihrer Größe geordnet. Diese so genannte 
primäre Tafel ist in der rechten Tabelle wiedergegeben. 


Tabelle 6.1: Semesterzahl von Politologen: ungruppierte Daten 


Urliste primäre Tafel 
1/12 1 10 
2 |14 2 11 
3 |10 3 11 
4 |15 4 12 
5 |11 5 12 
6 | 20 6 12 
7 |12 7 13 
8 | 12 8 13 
9 | 11 9 14 

10 | 13 10 15 

11 | 13 11 20 


Mit i wird der Laufindex für die einzelnen Merkmalsträger (hier also Perso- 
nen) bezeichnet, mit x; die konkrete Merkmalsausprägung des i-ten Merk- 
malsträgers (bzw. der i-ten Person). Allgemein nimmt der Laufindex i 
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Werte zwischen 1 und n an, wobei n der Anzahl der Merkmalsträger (Per- 
sonen) entspricht. Im Beispiel „läuft“ der Index i also von 1 bis 11, da 
die Messwerte — die Semesterzahl — bei 11 Personen erhoben wurden. Mit 
i = 4 wird also der vierte Messwert bezeichnet, mit x4 die konkrete Merk- 
malsausprägung der vierten Person. In der Urliste nimmt x4 den Wert 15 
an, d.h. diese Person hat bis zur Magisterprüfung 15 Semester lang stu- 
diert. In der primären Tafel nimmt dagegen x, den Wert 12 an, d.h. der 
Laufindex wird bei der Sortierung nicht berücksichtigt. 


Sowohl bei der Urliste als auch bei der primären Tafel werden die Mess- 
werte einzeln aufgeführt, es handelt sich daher um ungruppierte Daten. 
In einer Häufigkeitstabelle (Kapitel 5.1.1) werden dagegen gleiche Mess- 
werte zusammengefasst (gruppierte Daten). Zwischen ungruppierten und 
gruppierten Daten gibt es keinen Informationsverlust, da die Merkmals- 
ausprägung einer jeden Person vollständig reproduzierbar ist. 


Tabelle 6.2: Semesterzahl von Politologen: Häufigkeitstabelle 


k| £e | fer % kum. % 
1/10 1 9,1% 9,1% 
alıla| 182% | 273% 
3[12|3 27,3% 54,6% 
All 2 | 182%| 728% 
5/14| 1 9,1% 81,9% 
6/15| 1 9,1% 91,0% 
KANN 9,1% | 100,1% 
Kä 11 100,1% | 100,1% 


Der Laufindex für die einzelnen Kategorien wird mit k bezeichnet und 
„läuft“ von 1 bis m, wobei m der Zahl der Kategorien entspricht; in die- 
sem Beispiel sind es sieben. Der Laufindex für Kategorien k sollte auf 
keinen Fall mit dem Laufindex für Merkmalsträger (hier: Personen) i ver- 
wechselt werden. Die Merkmalsausprägung einer Kategorie wird mit x; 
bezeichnet, x4 entspricht der Merkmalsausprägung 13 Semester. Da die 
Daten zusammengefasst wurden, benötigen wir noch eine Angabe über 
die Häufigkeit f,, mit der die Merkmalsausprägungen auftreten. fr, ist 
hier 2, was bedeutet, dass zwei Politologen 13 Semester bis zum Abschluss 
benötigten. Prozentual ausgedrückt haben 18,2% der Studierenden (2 von 
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11) 13 Semester bis zum Abschluss des Studiums benötigt. In der letzten 
Spalte sind die kumulierten (addierten) Prozente angegeben. 9,1% der 
Studierenden haben 10 Semester bis zum Abschluss benötigt, 27,3% der 
Studierenden haben 11 oder 10 Semester benötigt, 54,6% der Studieren- 
den nicht mehr als 12 Semester, 73% weniger als 13 Semester usw. Die 
Summe der Prozente addiert sich wegen Rundungsfehlern hier nicht ganz 
exakt zu 100%. Die Berechnung kumulierter Prozentwerte ist erst ab ordi- 
nalskaliertem Skalenniveau sinnvoll, weil die Merkmalsausprägungen dazu 
nach der Größe sortiert werden müssen. 


6.1 Lagemaße 


Mittelwerte kennzeichnen die zentrale Lage einer Verteilung. Wenn vom 
Mittelwert gesprochen wird, dann ist in der Regel ein spezieller Mittelwert, 
nämlich das arithmetische Mittel, gemeint. Die drei wichtigsten Mittelwer- 
te sind: 


1. Modalwert 
2. Median 
3. Arithmetisches Mittel 


Welchen der drei Mittelwerte man berechnet, hängt zum einem vom Ska- 
lenniveau des Merkmals und zum anderen von der zu treffenden inhaltli- 
chen Aussage ab. Bei nominal skalierten Merkmalen kommt der Modal- 
wert in Frage, bei ordinalen Merkmalen zusätzlich der Median und bei 
metrischen Merkmalen lässt sich auch das arithmetische Mittel sinnvoll 
interpretieren. 


Zwei weitere Mittelwerte für mindestens ratioskalierte Merkmale, das geo- 
metrische und das harmonische Mittel, sind für uns von untergeordneter 
Bedeutung (vgl. Sachs 2006, S. 76-78). Das geometrische Mittel kommt 
bei positiven, ratioskalierten Daten zum Einsatz und ist inhaltlich bei der 
Berechnung durchschnittlicher Wachstumsfaktoren (Umsatz, Zinsen usw.) 
angemessen. 


6.1.1 Modalwert 


Der Modalwert ist der Messwert, der in einer Verteilung am häufigs- 
ten vorkommt. Bei einer graphischen Darstellung ist der Modalwert also 
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der Gipfel bzw. das Maximum der Verteilung. Die Bezeichnung für den 
Modalwert ist nicht einheitlich. Wir benutzen £ mo. 


Kommen zwei Messwerte in einer Verteilung (annähernd) gleich häufig 
vor, dann kann man zwei Modalwerte angeben. Sind die beiden häufigs- 
ten Messwerte nicht benachbart, dann spricht man von einer bimodalen 
Verteilung. Sind die beiden häufigsten Werte benachbart, dann kann man 
bei metrischen Merkmalen das arithmetische Mittel der beiden Modalwer- 
te ausrechnen. Bei mehr als zwei Modalwerten wird im Allgemeinen auf 
deren Angabe verzichtet. 


Modalwerte haben den Vorteil, dass sie direkt aus der Verteilung ersicht- 
lich sind. Der Modalwert der Studiendauer (vgl. Tabelle 6.2) beträgt 12, da 
dies der Wert der am stärksten besetzten Kategorie (f,,— 3) ist. (Das heift 
aber nicht, dass die meisten der elf Politologen 12 Semester bis zum Studi- 
enabschluss benötigt haben.) Modalwerte lassen sich für alle Messniveaus 
bestimmen. Der Modalwert der Religionszugehörigkeit (nominales Merk- 
mal, Tabelle 6.3) ist bei westdeutschen Befragten „Evangelisch /Freikirche“, 
bei ostdeutschen Befragten „Keine Konfession“. 


Tabelle 6.3: Religionszugehörigkeit 


Westdeutschland Ostdeutschland 

Häufigkeit rel. Häufig. | Häufigkeit rel. Häufig. 
Evangelisch/Freikirche 905 0,40 284 0,25 
Katholisch 838 0,37 45 0,04 
Andere christl. Religion 56 0,02 15 0,01 
Nicht christl. Religion 109 0,05 10 0,01 
Keine Konfession 377 0,16 765 0,68 
Gesamt 2285 1,00 1119 1,00 


ALLBUS 2006 


6.1.2 Median 


Der Median ist der Wert, der die nach der Größe aufsteigend sortierten 
Messwerte in zwei Hälften teilt. Der Median ist also der Wert, der in der 
Mitte liegt. Der Median der drei Einkommen 1000 Euro, 1500 Euro und 
8000 Euro ist 1500 Euro. Die Bezeichnung des Medians ist 7. 


Um den Median zu ermitteln, muss man die Messwerte zunächst ordnen, 
d.h. die primäre Tafel erstellen. Anschließend sucht man den Wert, der 
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in der Mitte liegt. Bei einer ungeraden Zahl von Messwerten existiert 
genau ein Messwert, der in der Mitte liegt, und zwar an der Stelle —. 
Der Median ist die Merkmalsausprägung des Messwerts, der an der Dien 
Stelle in der geordneten Verteilung liegt: 


Ë= Tan. (6.1) 


Im Beispiel zur Studiendauer, die für n = 11 Studierende erhoben wurde, 
beträgt der Median 


& = Tun = ze = 12 Semester. 
2 


Bei 11 Messwerten liegt der sechste Messwert - (11 + 1)/2 = 6 - in der 
Mitte der Verteilung. Die Merkmalsausprägung des sechsten Wertes ist 
me = 12 Semester. Die mittlere Studiendauer beträgt also 12 Semester. 
Die Hälfte der Studierenden benötigt bis zum Studienabschluss weniger 
oder gleich 12 Semester, die Hälfte mehr als 12 Semester. In der ersten 
Hälfte befinden sich bereits zwei Studierende, die ebenfalls 12 Semester 
studiert haben. Bei diesen beiden kann man nicht davon sprechen, dass 
sie „schneller“ studiert haben. 


Bei einer geraden Zahl von Messwerten existieren zwei mittlere Wer- 
te, und zwar an den Stellen 3 und $ + 1. Bei 12 Messwerten liegen der 
sechste (2) und der siebte (2 + 1) Messwert in der Mitte. Es hat sich 
bei einer ungeraden Zahl von Messwerten eingebürgert, den Median als 
arithmetisches Mittel der Merkmalsausprägungen der beiden in der Mitte 


liegenden Messwerte zu berechnen: 


(6.2) 


Würde in unserem Beispiel noch ein Politologe mit zu = 21 Semestern 
hinzukommen (insgesamt sind es dann n = 12 Personen), würde sich der 
Median wie folgt ermitteln: 
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2 2 2 2 


= 125. 


Die Merkmalsausprägung des sechsten Messwerts (xe) ist 12 Semester, die 
Merkmalsausprägung des siebten Messwerts (x7) beträgt 13 Semester. Das 
arithmetische Mittel aus diesen beiden Werten ist 12,5 Semester. Die mitt- 
lere Studiendauer beträgt nun also 12,5 Semester. Alternativ können auch 
die beiden mittleren Werte angegeben werden, was bei ordinalskalierten 
Merkmalen angemessener ist. 


Die Berechnung des Medians setzt lediglich voraus, dass die Messwerte 
in eine Reihenfolge gebracht werden können. Er ist deshalb für alle Da- 
ten angemessen, die mindestens ordinalskaliert sind. Bei einer großen Zahl 
von Beobachtungen lässt sich der Median am einfachsten aus der Häufig- 
keitstabelle ermitteln. Tabelle 6.4 enthält die Verteilung der schulischen 
Abschlüsse der westdeutschen Befragten des ALLBUS 2006. Insgesamt 
liegen für 2.221 Personen Beobachtungen vor. Der Median ist daher der 
(n + 1)/2 = (2221 + 1)/2 = 1.111te Messwert, wenn die Schulabschlüsse 
wie in der Tabelle nach der Höhe des Abschlusses sortiert sind. In die Ka- 
tegorie Hauptschule (niedrigster Abschluss) fallen 961 Beobachtungen. Die 
Kategorien Hauptschulabschluss und Mittlere Reife umfassen zusammen 
(961 + 660) = 1621 Beobachtungen usw. Die 962te bis 1621te Beobach- 
tung fällt in die Kategorie Mittlere Reife, die damit auch die 1.111te Be- 
obachtung beinhaltet. Der Median ist daher 1111 = ‚Mittlere Reife‘. Am 
leichtesten lässt sich der Median aus der Spalte der kumulierten Prozent- 
werte ablesen. Der Median ist der Wert, an dem 50% der Beobachtungen 
einen kleineren Wert haben. 50 % (letzte Spalte) werden in der Kategorie 
Mittlere Reife erreicht. 


Tabelle 6.4: Schulabschluss 


Hauptschule 
Mittlere Reife 


Fachhochschulreife 
Hochschulreife 


ALLBUS 2006, westdeutsche Befragte 
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6.1.3 Arithmetisches Mittel 


Das arithmetische Mittel ist der Wert, den alle Merkmalsträger, also 
z. B. Personen, im Durchschnitt aufweisen. Landläufig bezeichnet man 
das arithmetische Mittel deshalb auch als Durchschnittswert. Das arith- 
metische Mittel wird mit X bezeichnet. Die Berechnung des arithmetischen 
Mittels setzt mindestens intervallskalierte Daten voraus. 


e Bei ungruppierten Daten — wie in Tabelle 6.1 — berechnet sich das 
arithmetische Mittel wie folgt: 


n 
3 
i=1 


n 


m= 


(6.3) 


Zur Berechnung des arithmetischen Mittels werden die Merkmals- 
ausprägungen aller Merkmalsträger summiert (3 x;) und anschließend 
durch die Anzahl der Merkmalsträger (n) dividiert (vgl. zum Rechnen 
mit dem Summenzeichen Bortz 2004, S. 703 f.). Eine Division durch n 
bedeutet immer, dass ein Durchschnittswert ausgerechnet wird. Hier 
ist es also die durchschnittliche Ausprägung des Merkmals x;, im kon- 
kreten Beispiel also die durchschnittliche Semesterzahl: 


n 
IE 
i=1 


T= 


Tı tm + £3 + L4 + L5 + Le t £7 + Tg tt Lot Tu 


n 
-10+11+11+12+12+12+13+13+14+15+20 
11 
143 
=a 13 Semester. 


Die durchschnittliche Studiendauer beträgt also 13 Semester. Ob man 
zur Berechnung der Summe der Merkmalsausprägungen die Werte der 
primären Tafel oder der Urliste entnimmt, ist natürlich völlig egal. 

e Für Daten, die in einer Häufigkeitstabelle vorliegen (gruppierte Daten) 
— wie in Tabelle 6.2 —, sieht die Formel etwas anders aus: 
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m 


32 (Er: for) 

Ka SL 

EE 6.4 
a (6.4) 
Jetzt werden also nicht die Merkmalsausprägungen aller Personen (x;) 
summiert, sondern die Merkmalsausprägungen der Kategorien (xp) 
multipliziert mit deren Häufigkeit (f,,). Die Division durch n bleibt. 
Angewendet auf das Beispiel in Tabelle 6.2 berechnet sich 7: 


m 


k=1 
n 


T= 


10-1+11-2+12.3+13-2+14-.1+15-1+20-1 


143 


= 13 Semester. 


Das Ergebnis ist natürlich dasselbe. 


Das arithmetische Mittel ist der am häufigsten verwendete Mittelwert. 
Er nutzt alle beobachteten Informationen aus. Im Gegensatz zum Median 
wird das arithmetische Mittel allerdings durch einen oder mehrere stark 
von den restlichen Werten abweichende Werte — so genannte „Ausreißer“ — 
verzerrt. Dies kann man sich an unserem Beispiel verdeutlichen, in dem es 
einen Wert gibt, der deutlich von den anderen Werten abweicht (ru = 20 
Semester). Berechnet man nun Modalwert, Median und arithmetisches 
Mittel für die Gesamtverteilung sowie für eine Verteilung, in der dieser 
„Ausreißer“ weggelassen wird, kommt man zu folgendem Ergebnis: 


Tabelle 6.5: Einfluss von Ausreißern 


alle Messwerte | Messwerte ohne zu 


& 
T 13 12,3 
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Während Modalwert und Median unverändert bleiben, verkleinert sich 
das arithmetische Mittel in der Verteilung ohne den Ausreißer. Die durch- 
schnittliche Studiendauer beträgt nun nicht mehr 13 Semester, sondern 
12,3 Semester. Das arithmetische Mittel wird durch den extremen Wert 
verzerrt, während Modalwert und Median gleich bleiben. 


Das arithmetische Mittel weist zwei Eigenschaften auf, die man sich bei 
anderen statistischen Berechnungen — zum Beispiel der im Anschluss be- 
handelten Streuungsmaße — zunutze machen kann: 


1. Die Summe der Abweichungen aller Messwerte vom Mittelwert ist 0. 
Mathematisch ausgedrückt, sieht das folgendermaßen aus: 


n 


X (m-23)=0. 


i=1 


Würde man in diese Formel irgendeinen anderen Wert anstelle des 
arithmetischen Mittels einsetzen, würde ein Wert # 0 herauskommen, 
d.h. dass nur das arithmetische Mittel diese Eigenschaft besitzt. 

2. Die Summe der quadrierten Abweichungen aller Messwerte vom Mit- 
telwert bzw. die „Summe der Abweichungsquadrate* (SAQ) ist mini- 
mal. Auch dazu wieder der mathematische Ausdruck: 


n 


5 (x; — 2)’ = min. 


i=1 


„Minimal“ in dieser Formel heißt, dass bei der Berechnung der qua- 
drierten Abweichungen der Messwerte von irgendeinem anderen Wert 
das Ergebnis auf jeden Fall größer wäre als bei Verwendung des arith- 
metischen Mittels. 


Wir wissen nun, dass die durchschnittliche Studiendauer z der elf Politolo- 
gen 13 Semester beträgt, die mittlere Studiendauer (£) bei 12 Semestern 
liegt, und dass die am stärksten besetzte Kategorie (zur) 12 Semester 
ist. Das arithmetische Mittel ist der größte Wert, gefolgt von Median und 
Modalwert. 


In symmetrischen Verteilungen sind Median und arithmetisches Mittel 
identisch, wie man an der Verteilung der Körpergröße der im ALLBUS 
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2004 in Westdeutschland befragten Männer (linker Teil in Abbildung 6.1) 
erkennen kann (7 = 7 = 178 cm). In schiefen Verteilungen wird der arith- 
metische Mittelwert stärker in Richtung des längeren Endes der Verteilung 
beeinflusst. Das klassische Beispiel für eine schiefe Verteilung sind Ein- 
kommen. Die Verteilung der monatlichen Nettoeinkommen der in West- 
deutschland befragten Männer (ALLBUS 2006, rechter Teil in Abbil- 
dung 6.1) ist linkssteil (rechtsschief): Die Einkommensverteilung steigt 
zunächst (am linken Ende) steil an und fällt dann nach rechts flach ab. 
Das längere Ende der Verteilung ist bei den höheren Einkommen. Das 
arithmetische Mittel der Einkommen (gestrichelte Linie) wird durch die 
sehr hohen Einkommen nach oben beeinflusst, der Median (durchgezoge- 
ne Linie) nicht. Die mittleren Einkommen (7) sind daher niedriger als die 
durchschnittlichen Einkommen (7). Möchte man Einkommen hoch darstel- 
len, so wird man mit den durchschnittlichen Einkommen 7 argumentieren, 
möchte man diese niedrig darstellen, wird man die mittleren Einkommen 
7 verwenden. Auch die Studiendauer der Politologen ist linkssteil verteilt: 
Der Median beträgt 12 Semester, das arithmetische Mittel 13 Semester 
(Tabelle 6.5). In einer rechtssteilen (linksschiefen) Verteilung befindet sich 
das längere Ende der Verteilung am linken Ende, was empirisch jedoch sel- 
tener vorkommt (vgl. Abbildung 3.3, S. 50). In rechtssteilen Verteilungen 
ist das arithmetische Mittel kleiner als der Median. 


Abbildung 6.1: Symmetrische und linkssteile Verteilung 
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In unimodalen symmetrischen Verteilungen fallen alle drei Mittelwerte in 
einem Punkt zusammen (£mo = č = 7). In einer linkssteilen Verteilung 
ist der Modalwert der kleinste Wert, gefolgt von Median und arithmeti- 
schem Mittel (zu <& < 7). In einer rechtssteilen Verteilung nimmt das 
arithmetische Mittel den kleinsten Wert, der Median den mittleren Wert 
und der Modalwert den größten Wert an (Z < č < Zuel, 
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6.2 Streuungsmaße 


Ein Mittelwert beschreibt die Verteilung umso besser, je näher die Daten 
beieinander liegen. Streuen die Daten jedoch stark, ist die Berücksichti- 
gung eines Streuungsmaßes ratsam. Die Mittelwerte einer beliebigen Ver- 
teilung können nämlich bei unterschiedlicher Streuung identisch ausfallen. 
So ist z.B. in einer Verteilung von drei Einkommen in Höhe von 2000 
Euro, 3000 Euro und 4000 Euro das leicht zu errechnende Durchschnitts- 
einkommen 3000 Euro. Auch bei drei Einkommen in Höhe von 100 Euro, 
900 Euro und 8000 Euro ergäbe sich ein arithmetisches Mittel von 3000 
Euro. Die beiden Verteilungen streuen jedoch unterschiedlich stark. 


Dargestellt werden die folgenden Maßzahlen: 


Index qualitativer Variation 
Variationsweite 
Quartilabstand 

Varianz 
Standardabweichung 
Variationskoefhizient 


De Ei 


Welches Streuungsmaß angemessen ist, hängt auch hier vom Skalenniveau 
der betrachteten Merkmale ab. 


6.2.1 Index qualitativer Variation 


Nominale Streuungsmaßse sind nicht sehr weit verbreitet. Die Maße, die 
zur Verfügung stehen — wie die Devianz (Kühnel und Krebs 2007, 96 ff.) 
oder der hier dargestellte Index qualitativer Variation (IQV) -, beruhen 
darauf, dass die Streuung bei nominalen Merkmalen maximal ist, wenn 
die Ausprägungen eines Merkmals gleich häufig besetzt sind. Die Streuung 
ist minimal, wenn alle Beobachtungen in eine Kategorie fallen. Bei einem 
Merkmal mit zwei Ausprägungen ist die Streuung maximal, wenn jede der 
beiden Kategorien 50% der Beobachtungen beinhaltet. Sie ist minimal, 
wenn nur eine der beiden Kategorien besetzt ist. 


Der Index qualitativer Variation berechnet sich nach 
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1-Dn 


wobei m die Zahl der Kategorien und py die relative Häufigkeit der k-ten 
Kategorie angibt. 


Für die westdeutschen Befragten beträgt die Streuung der Religionszuge- 
hörigkeit (Tabelle 6.3, S. 123) 


1 — (.42 + .37? + .02? + .05? + .16? 
a u ee a een 


= 0,84. (6.6) 


Für die ostdeutschen Befragten ist die Streuung der Religionszugehörigkeit 
geringer. Rund 70% der Befragten befinden sich hier in einer einzigen 
Kategorie, nämlich „Keine Konfession“. Der Index qualitativer Variation 
beträgt 0,37. 


Bei einer gleichen Verteilung der Beobachtungen auf alle Kategorien p; = 
1/K wird der Index 1 (maximale Streuung). Sofern eine Kategorie alle 
Beobachtungen beinhaltet (pp = 1) nimmt der Index einen Wert von Null 
an (keine Streuung). 


6.2.2 Variationsweite 


Die Variationsweite (auch: Spannweite) gibt den Abstand zwischen dem 
maximalen und minimalen Wert einer Verteilung an. Die Bezeichnung ist 
normalerweise V, manchmal auch r, wegen der englischen Bezeichnung 
range. Letzteres wird von uns aber nicht empfohlen, da die Bezeichnung 
r in der Regel für den Pearson’schen Korrelationskoeffizienten verwendet 
wird (vgl. Kapitel 7.6). Die Berechnung von V setzt voraus, dass die Daten 
eine Rangordnung haben. 


V= aan T Tmin (6.7) 
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V ist der Wert mit der größten Merkmalsausprägung (nicht zu verwech- 
seln mit dem Wert mit der häufigsten Merkmalsausprägung) abzüglich des 
Wertes mit der kleinsten Merkmalsausprägung (ebenso nicht zu verwech- 
seln mit dem Wert mit der seltensten Merkmalsausprägung). Im Beispiel 
der Studiendauer ergibt sich 


V = Tmar — Tun = 20 — 10 = 10 Semester. 


Die Variationsweite ist 10. Zwischen dem Studierenden, der als Erster sein 
Studium beendete, und demjenigen, der zuletzt das Studium abschloss, 
liegen also 10 Semester. 


6.2.3 Quartilabstand 


Die Variationsweite nutzt lediglich die beiden Werte an den Enden der 
Verteilung und ist daher empfindlich gegenüber Ausreißern. Die Spannwei- 
te der Semesterzahl beträgt 10; ohne den Studierenden, der 20 Semester 
studiert hat, betrüge die Variationsweite (15 — 10) = 5 Semester. 


Der Quartilabstand ist nicht abhängig von den Werten an den Enden 
der Verteilung. Er gibt die Differenz zwischen dem 3. Quartil und dem 
1. Quartil einer Verteilung an (vgl. Abbildung 6.2). Zur Bestimmung der 
Quartile werden die Messwerte aufsteigend sortiert und in vier gleich stark 
besetzte Gruppen geteilt. Jedes Quartil enthält 25% der Messwerte. 25% 
der Messwerte sind kleiner als oder gleich dem Wert des 1. Quartils, 75% 
sind gleich groß oder größer. Das 2. Quartil ist der Median. Das 3. Quartil 
ist der Wert, an dem 75% der Werte kleiner oder gleich groß sind und 
25% gleich groß oder größer. Die mittleren 50% der Messwerte befinden 
sich zwischen dem 1. und 3. Quartil einer Verteilung. 


Da die Zahl der Messwerte nicht immer exakt durch 4 teilbar ist, gibt 
es verschiedene Berechnungsmethoden. Die Werte des 1. und 3. Quar- 
tils können ebenso wie der Median (2. Quartil) einfach an den kumulier- 
ten Prozentwerten abgelesen werden (Tabelle 6.2, letzte Spalte). 25 % der 
Studierenden haben nicht länger als 11 Semester, 75% nicht länger als 14 
Semester studiert. Das 1. Quartil der Studienlänge der 11 Politologen liegt 
bei 11 Semestern und das 3. Quartil bei 14 Semestern. 50% der Studie- 
renden haben zwischen 11 und 14 Semestern bis zum Abschluss benötigt, 
der Quartilabstand beträgt (14 — 11) = 3 Semester. 
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Abbildung 6.2: Quartilabstand 
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Minimum, 1. Quartil, Median, 3. Quartil und Maximum werden häufig 
zur Charakterisierung der Lage und Breite einer Verteilung herangezo- 
gen und als 5-Punkte-Zusammenfassung einer Verteilung (Tuckey 1977) 
bezeichnet. 


Tabelle 6.6: Semesterzahl - 5 Punkte-Zusammenfassung 
Minimum 


1. Quartil 
Median 


3. Quartil 
Maximum 


Grafisch wird die 5-Punkte-Zusammenfassung einer Verteilung durch Box- 
and-Whisker-Plots visualisiert (Abbildung 6.3). Die untere Grenze der Box 
ist das 1. Quartil (11 Semester), die obere Grenze der Box ist das 3. 
Quartil (14 Semester). Die Länge der Box entspricht dem Quartilabstand 
14 — 11 = 3 Semester). Innerhalb der Box ist der Median (12 Semester) 
durch eine Linie gekennzeichnet. An der Box erkennt man deutlich, dass 
die Studiendauer linkssteil verteilt ist. Der Abstand zwischen Median und 
3. Quartil ist größer als der Abstand zwischen Median und 1. Quartil. 


Die Box wird durch zwei Zäune (whisker) nach oben und nach unten ver- 
längert. Die Zäune entsprechen dem Minimum und Maximum der Vertei- 
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lung, sofern Minimum bzw. Maximum keine Ausreißer sind. Ausreißer sind 
Messwerte, die weiter als den 1,5fachen Quartilabstand von der Box ent- 
fernt sind. Sie werden einzeln dargestellt. Sind Ausreißer vorhanden, dann 
ist der Zaun an der Stelle des kleinsten bzw. größten Messwertes, der kein 
Ausreißer ist. Der Quartilabstand der Studiendauer beträgt 3 Semester, 
der 1,5fache Quartilabstand 1,5(3) = 4,5 Semester. Die untere Grenze 
für Ausreißer ist demnach 1. Quartil — 1,5(IQR) = 11 — 1,5(3) = 6,5 
Semester, die obere Grenze für Ausreißer beträgt 3. Quartil+1,5(IQR) = 
11 + 1,5(3) = 15,5 Semester. Semesterzahlen kleiner als 6,5 und größer 
als 15,5 sind Ausreißer. Ausreißer nach unten, das heißt Studierende, die 
weniger als 6,5 Semester bis zum Abschluss benötigt haben, existieren 
nicht. Der untere Zaun entspricht deshalb dem Minimum der Verteilung 
(10 Semester). Nach oben existiert ein Ausreißer (Wert > 15,5 Semester), 
nämlich 20 Semester. Er ist einzeln in der Abbildung visualisiert. Der obe- 
re Zaun ist der größte Wert der Verteilung, der kein Ausreiker ist, nämlich 
15 Semester (vgl. Tabelle 6.1). 


Abbildung 6.3: Box-and-Whisker-Plot 
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Bei intervall- und ratioskalierten Merkmalen gibt der Quartilabstand an, 
wie weit die mittleren 50% der Messwerte einer Verteilung voneinander 
entfernt sind. Bei ordinalskalierten Merkmalen kann der Abstand zwischen 
den Quartilen nur im Sinne von Rangplätzen interpretiert werden (vgl. 
Kühnel und Krebs 2007, 96). Die Angabe der Quartile ist anschaulicher: 
Das 1. Quartil des Schulabschlusses hat den Wert Hauptschule (Spalte 
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kumulierte Prozente; Kategorie, in der 25% der Fälle erreicht werden), 
der Median hat die Ausprägung „Mittlere Reife“ und das 3. Quartil fällt 
in die Kategorie „Fachhochschulabschluss“. 


6.2.4 Varianz 


Im Gegensatz zu Variationsweite und Quartilabstand berücksichtigt die 
Varianz alle Werte einer Verteilung. Sie gibt die durchschnittliche Va- 
riation aller Merkmale wieder. Die Bezeichnung für die Varianz ist 


SCH 


e Bei ungruppierten Daten wird die Varianz wie folgt berechnet: 


;— 7) 

Ee 7 (6.8) 
n n 
Die Summe der quadrierten Abweichungen aller Messwerte vom Mit- 
telwert (SAQ) (die nach Punkt 2 in Abschnitt 6.1 minimal ist) wird 
durch n dividiert. Das Ergebnis — die Varianz — wird deshalb auch als 
durchschnittliche oder mittlere quadratische Abweichung bezeichnet. 
Durch die Quadrierung der Abweichungen vom Mittelwert werden 
zwei Dinge erreicht. Zum einen verschwinden die Vorzeichen der Ab- 
weichungen. Dies ist auch notwendig, da die durchschnittliche einfache 
Abweichung aller Messwerte vom arithmetischen Mittel immer null 
ist, wie wir in Punkt 1 in Abschnitt 6.1 gesehen haben.! Zum anderen 
werden durch die Quadrierung größere Abweichungen vom Mittelwert 
stärker berücksichtigt als kleine. 
Die Summe der quadrierten Abweichungen wird mit Hilfe einer Ar- 
beitstabelle ermittelt (vgl. Tabelle 6.7 auf der folgenden Seite). Die 
Anzahl der Messwerte n beträgt 11, die durchschnittliche Semester- 
zahl beträgt z = 13. Nun kann in der letzten Spalte die Summe der 
quadrierten Abweichungen vom Mittelwert berechnet werden; sie be- 
trägt SAQ = 74. Im Beispiel ergibt sich also eine Varianz von 


74 SES 
s = — =6,72% 6,73. 
11 
1 Alternativ könnte man die absoluten Beträge der einzelnen Abweichungen sum- 
mieren und durch die Zahl der Beobachtungen dividieren, wodurch man die „AD- 
Streuung“ erhält. Dieses Maß wird jedoch nur sehr selten verwendet. 
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Tabelle 6.7: Berechnung der Varianz aus der primären Tafel 


il z| rz | (u; - 2) 
1 10 | -3 9 
2 11 | -2 4 
3 11 | —2 4 
4 12 | —1 1 
5 12 | —1 1 
6 12 | —1 1 
7| 13 0 0 
8| 13 0 0 
9 14 1 1 
10 15 2 4 
11 20 T 49 
S a 0 74 


Leider ist diese Zahl schwer zu interpretieren, da durch die Quadrie- 
rung die ursprüngliche Maßeinheit (Semester) verloren gegangen ist. 

Bei gruppierten Daten werden nicht die einzelnen Merkmalsausprä- 
gungen x;, sondern die Merkmalsausprägungen der Kategorien x; in 
die Formel eingebracht. Für jede Kategorie wird die quadrierte Abwei- 
chung vom Mittelwert (£ — 7)? berechnet und mit ihrer Häufigkeit 
fr, multipliziert. Die Berechnung erfolgt wiederum anhand einer Ar- 
beitstabelle (vgl. Tabelle 6.8). 


m 


DG — T)? - far 


n 


Im Beispiel ergibt sich: 


a c 
11 


6,72 x 6,73. 


(6.9) 


Die Varianz beträgt natürlich wieder 6,73. 
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Tabelle 6.8: Berechnung der Varianz aus den gruppierten Daten 


k | x | for | - TZ | (a - 8)? | (£k - Z) - far 
110 I| =3 9 9 
2 IL 2| =2 4 8 
3| 12 3 =1 1 3 
4 |13 2 0 0 0 
5 | 14 1 1 1 1 
6 | 15 1 2 4 4 
7 | 20 1 7 49 49 
` 11 74 


6.2.5 Standardabweichung 


Die Standardabweichung ergibt sich direkt aus der Quadratwurzel der 
Varianz. Sie wird mit s bezeichnet. 


e Bei ungruppierten Daten lautet die Formel 


e Bei gruppierten Daten lautet die Formel 


m 


I (Tr = 2)? Sa, 


n 


Im Beispiel erhalten wir 


s = V32 = 2,59. 


(6.10) 


(6.11) 


Die Standardabweichung beträgt also 2,59 Semester. Im Gegensatz zur 
Varianz lässt sich diese Zahl in der ursprünglichen Maßeinheit (hier: Se- 
mesterzahl) angeben. Die Standardabweichung ist die Wurzel aus der mitt- 
leren quadratischen Abweichung aller Werte. 
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Bei annähernd normalverteilten Merkmalen liegen ca. 68% aller Werte 
im Bereich von + 1 Standardabweichungen um das arithmetische Mittel, 
ca. 95% der Werte befinden sich im Bereich von + 2 Standardabweichun- 
gen. Die Körpergröße der in Westdeutschland befragten Männer (ALLBUS 
2004, n = 979) ist annähernd normalverteilt um ein arithmetisches Mit- 
tel von 178 cm mit einer Standardabweichung von 7,3 cm (linke Grafik 
in Abbildung 6.1, $.129). Ca. 68% der befragten westdeutschen Männer 
sind zwischen 171 (178 — 7,3) und 185 (178 + 7,3) cm groß. Merkmale 
sind allerdings nur selten normalverteilt. Die Normalverteilung hat jedoch 
eine große Bedeutung für die schließende Statistik, wie wir in Kapitel 10.3 
feststellen werden. 


6.2.6 Variationskoeffizient 


Merkmale mit einem höheren arithmetischen Mittel weisen häufig auch 
eine größere Standardabweichung auf. Der Variationskoeffizient V relati- 
viert die Standardabweichung am arithmetischen Mittel. 


V= (6.12) 


EIN? 


Er nimmt einen Wert > 1 an, wenn die Standardabweichung größer ist 
als das arithmetische Mittel. Multipliziert mit 100 gibt der Variationsko- 
effizient die Standardabweichung als Prozentwert des arithmetischen Mit- 
telwerts an. Weil sich die Maßeinheit (hier cm) rauskürzt, ist der Varia- 
tionskoeffizient eine dimensionslose Größe. Er eignet sich deshalb zum 
Vergleich der Streuung bei zwei Gruppen auch dann, wenn ein Merk- 
mal in unterschiedlichen Maßeinheiten (z.B. Einkommen in US-Dollar 
und Euro) vorliegt. Für die Semesterzahl beträgt der Variationskoeflizient 
2,59/13 = 0,20, also rund 20% der durchschnittlichen Studiendauer. Die 
Berechnung des Variationskoeffizienten ist möglich, wenn das betrachtete 
Merkmal keine negativen Werte annehmen kann, wie es bei ratioskalierten 
Merkmalen der Fall ist. 
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In Tabelle 6.9 ist angegeben, ab welchem Skalenniveau die in diesem Ka- 
pitel behandelten Lage- und Streuungsmaße sinnvoll interpretiert werden 


können. 
Tabelle 6.9: Univariate Maßzahlen und Skalenniveau 
Skalenniveau 
nominal ordinal intervall ratio 
Modalwert X X X X 
Median X X X 
arithmetisches Mittel X X 
Index qualitativer Variation X X X X 
Quartilabstand (X) X X 
Varianz & Standardabweichung X X 
Variationskoeffizient (X) X 
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Aufgaben zu Lage- und Streuungsparametern 
1. Sie haben bei 10 Personen folgende Intelligenzquotienten gemessen: 


i| 1 2 3 4 5 6 7 8 9 m 
x; |110 160 90 80 111 100 70 100 120 110 


Bitte berechnen Sie die behandelten Lage- und Streuungsparameter 
und interpretieren Sie diese inhaltlich! 

2. In zwei verschiedenen Ländern beträgt das Durchschnittseinkommen 
z = 1.500 DM. In Land A beträgt s = 1.100 DM in Land B s = 638 
DM. In welchem Land ist die Einkommensverteilung (bei ansonsten 
gleichen Bedingungen) gerechter? 

3. In der folgenden Tabelle ist die Altersverteilung von Statistik-Kurs- 
Teilnehmern wiedergegeben (die gleiche Verteilung wurde bereits mit 
Abbildung 5.5 auf Seite 113 graphisch dargestellt). Bitte berechnen 
Sie die behandelten Mittel- und Streuungswerte und interpretieren 
Sie diese inhaltlich! 


ki 2 3 4 5 6 7 8 9 10 I1 
19 20 21 22 23 24 25 26 27 28 29 


1 4 13 13 10 7 6 2 1 


4. Das arithmetische Mittel einer Verteilung beträgt 4, der Median 6. Ist 
der Modalwert größer als 6, kleiner als beide, oder liegt er zwischen 4 
und 6? 

5. Sie möchten die Notenverteilung einer Klausur durch einen Mittel- 
wert charakterisieren. Welche(r) Mittelwert(e) ist/sind angemessen 
und warum? 

6. Im Mainzer Mietspiegel sind die mittleren Mieten für jede Wohnungs- 
gruppe anhand des Medians ausgewiesen. Warum? 
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Wenn wir wissen wollen, ob Arbeiter dazu neigen, die SPD zu wählen, ob 
Vorurteile besonders bei autoritären Persönlichkeiten zu finden sind, oder 
ein gutes Abitur mit einem guten Studienabschluss einhergeht, dann sind 
wir auf der Suche nach einem Zusammenhang zwischen zwei Merkmalen. 


Zusammenhangsmaße drücken die Stärke der Beziehung zwischen zwei 
Merkmalen aus. Es gibt eine Vielzahl von Zusammenhangsmaßen (Ta- 
belle 7.1). Welches Maß angemessen ist, hängt in erster Linie vom Ska- 
lenniveau der Merkmale ab. Da sich für jedes Skalenniveau verschiedene 
Zusammenhangsmaße berechnen lassen, muss man außerdem berücksich- 
tigen, dass nicht alle Maße zum selben Ergebnis kommen. Darüber hinaus 
haben alle Zusammenhangsmaße bestimmte Vor- und Nachteile, die bei 
ihrer Interpretation berücksichtigt werden müssen. 


Tabelle 7.1: Zusammenhangsmaße 


Merkmal 1 | Merkmal 2 | Zusammenhangsmaß 


2 x 2-Tabellen: 
dichotom dichotom Prozentsatzdifferenz, Odds-Ratio, 


o (phi), Yules Q 


Mehrfeldertabellen: 
nominal nominal Cramérs V, CA (lambda) 
ordinal ordinal y (gamma), tau-Maße (Tp, Te), p (rho), Somers d 
nominal* metrisch** | n? (eta-Quadrat) 
metrisch metrisch Kovarianz, Produkt-Moment-Korrelation r 


* unabhängiges Merkmal, ** abhängiges Merkmal 


Im Folgenden beschränken wir uns auf einige wesentliche Maßzahlen. Eine 
ausführliche Darstellung findet sich bei Benninghaus (2005). Für das Ver- 
ständnis multivariater Analyseverfahren ist die Kenntnis von Odds-Ratios, 


U. W. Gehring, C. Weins, Grundkurs Statistik für Politologen und Soziologen, 
DOI 10.1007/978-3-531-91879-2_7, 
© VS Verlag für Sozialwissenschaften | GWV Fachverlage GmbH, Wiesbaden 2009 
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der Kovarianz und der Produkt-Moment-Korrelation zentral. Logarith- 
mierte Odds werden in logistischen Regressionsmodellen als abhängige 
Variable verwandt. Kovarianz- und Korrelationsmatrizen sind der Aus- 
gangspunkt für Strukturgleichungsmodelle und faktorenanalytische Ver- 
fahren (vgl. Reinecke 2005). 


7.1 Kreuztabellen und statistische Unabhängigkeit 


Angenommen wir möchten herausfinden, ob Ostdeutsche eine andere Ein- 
stellung zum Schwangerschaftsabbruch haben als Westdeutsche. Dazu ha- 
ben wir die Merkmale Einstellung zur Abtreibung (‚Wenn die Frau es will‘) 
und Erhebungsgebiet (Befragung in Westdeutschland oder Östdeutsch- 
land) gekreuzt (Tabelle 7.2). Solche Tabellen werden auch als Kontingenz- 
tabellen bezeichnet, weil sie die gemeinsame Verteilung zweier Merkmale 
wiedergeben. Beispielsweise lehnen in Westdeutschland 1401 von 2148 Be- 
fragten einen Schwangerschaftsabbruch ab, in Ostdeutschland lehnen 410 
von 1086 Befragten einen Schwangerschaftsabbruch ab. 


Tabelle 7.2: Einstellung zur Abtreibung nach Erhebungsgebiet (Häufig- 
keiten) 


Gebiet 
Abtreibung? | West Ost | Summe 


nein 1401 410 1811 
ja 747 676 1423 


2148 1086 | 3234 


ALLBUS 2006 


Die allgemeine Form einer Kreuztabelle ist in Tabelle 7.3 auf der nächsten 
Seite dargestellt. Die Variable in den Spalten wird in der Regel mit X 
bezeichnet, die Variable in den Zeilen mit Y (vgl. Kapitel 5.1.2). Der 
Laufindex für die Zeilen läuft von i = 1 ...l, der Laufindex für die Spalten 
von j=1...m. In den Zellen stehen die Häufigkeiten f. bn gibt also die 
Häufigkeit wieder, die sich in der ersten Zeile und ersten Spalte befindet. 
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Tabelle 7.3: Allgemeine Form einer Kreuztabelle 


£1 x E Tm Zeilensumme 
m 
y| fu fa e fim 3 Du 
E 
In 
y2 fa f2 war Fam L Fe; 
Zi 
m 
ml fu fa #5 fim X fü 
j=l 
l H H l m 
Spaltensumme | 3 fa fa e A bn Id fy=n 
i=1 i=1 i=1 i=l j=1 


Die beobachteten Häufigkeiten einer Zelle werden allgemein als friz) 
bezeichnet. f steht auch hier wieder für Häufigkeiten, b gibt an, dass es 
sich um die beobachteten Häufigkeiten handelt, ö kennzeichnet die Zeile 
und j die Spalte. bus wäre also die beobachtete Häufigkeit der Zelle, die 
in der ersten Zeile und der zweiten Spalte steht, und dies sind im Beispiel 
410 Personen. 


Um zu bestimmen wie die Einstellung zum Schwangerschaftsabbruch vom 
Erhebungsgebiet abhängt, muss spaltenweise prozentuiert werden (Kapi- 
tel 5). 65% der in Westdeutschland Befragten (1401/2148 - 100) lehnen 
eine Abtreibung ab, jedoch nur 38% (410/1086 - 100) der ostdeutschen 
Befragten (Tabelle 7.4, Spaltenprozente in Klammern). 


Tabelle 7.4: Beobachtete Häufigkeiten und Spaltenprozente (Kontingenz- 
tabelle) 


Gebiet 
Abtreibung? West Ost Gesamt 


nein 1401 (65%) 40 (38%) 1811 (56%) 
ja 747 (35%) 676 (62%) |1423 (44%) 


[Gesamt |2148 (100%) 1086 (100%) |3234 (100%) 
ALLBUS 2006 


Ost- und westdeutsche Befragte unterscheiden sich offensichtlich in ihren 
Einstellungen — es besteht ein Zusammenhang zwischen dem Erhebungs- 
gebiet und der Einstellung zur Abtreibung. 
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Wie würde die Tabelle aussehen, wenn kein Zusammenhang zwischen den 
Merkmalen besteht, d.h. die beiden Merkmale statistisch unabhängig! 
sind? In diesem Fall dürften sich die Einstellungen von ost- und west- 
deutschen Befragten nicht unterscheiden. Die prozentuale Verteilung der 
abhängigen Variable (Einstellung zur Abtreibung) wäre dann für jede 
Ausprägung der unabhängigen Variable (West, Ost) identisch (vgl. Ta- 
belle 7.5). Die Ablehnung eines Schwangerschaftsabbruchs müsste bei ost- 
und westdeutschen Befragten 56% betragen, die Zustimmung 44%. Die 
Häufigkeiten, die dem Modell statistischer Unabhängigkeit entsprechen, 
werden als erwartete Häufigkeiten bezeichnet. 


Die erwarteten Häufigkeiten lassen sich ganz einfach ermitteln, indem 
man die Zeilensumme mit der Spaltensumme multipliziert und diesen Wert 
durch die Gesamtzahl der Befragten (n) dividiert. Die erwarteten Häufig- 
keiten werden mit Lu bezeichnet. 


Zeilensumme - Spaltensumme 


Juan = (7.1) 


n 


Im Beispiel ist die erwartete Häufigkeit in der linken oberen Zelle also: 


2148 - 1811 
fean SCH 3234 E 1202,9 ` 


Ca. 1203 von 2148 in Westdeutschland befragten Personen müssten einen 
Schwangerschaftsabbruch ablehnen, wenn kein Zusammenhang zwischen 
dem Erhebungsgebiet und der Einstellung zum Schwangerschaftsabbruch 
bestände. Auf die in Gleichung 7.1 beschriebene Art und Weise kann man 
nun auch die erwarteten Häufigkeiten der anderen Zellen berechnen. Ta- 
bellen, die die erwarteten Häufigkeiten beinhalten, werden auch als Indif- 
ferenztabellen bezeichnet. 


1 Das Konzept der statistischen Unabhängigkeit bezieht sich eigentlich auf eine 
Grundgesamtheit (vgl. Kapitel 12). In diesem Kapitel begnügen wir uns mit Aus- 
sagen über Stichprobendaten. 


Maße für zwei dichotome Merkmale 145 


Tabelle 7.5: Erwartete Häufigkeiten und Spaltenprozente bei statistischer 
Unabhängigkeit (Indifferenztabelle) 


Gebiet 
Abtreibung? West Ost Gesamt 
nein 1202,9 (56%) 608,2 (56%) | 1811 (56%) 
ja 945,2 (44%) 477,9 (44%) | 1423 (44%) 
Gesamt 2148 (100%) 1086 (100%) | 3234 (100%) 


ALLBUS 2006 


Statistische Unabhängigkeit ist eine symmetrische Eigenschaft. Wenn 
die prozentuale Verteilung innerhalb der Spalten identisch ist, dann ist 
auch die prozentuale Verteilung innerhalb der Zeilen identisch, wie man 
durch Zeilenprozentuierung der erwarteten Häufigkeiten leicht feststellen 
kann. 


7.2 Maße für zwei dichotome Merkmale 
7.2.1 Prozentsatzdifferenz 


Ein einfach zu interpretierendes Maß für den Zusammenhang in 2 x 2- 
Tabellen ist die Prozentsatzdifferenz. Die Prozentsatzdifferenz der Ableh- 
nung eines Schwangerschaftsabbruchs zwischen West- und Östdeutschen 
lässt sich aus den beobachteten Häufigkeiten (Tabelle 7.4) berechnen, 


1401 410 
2148 1086 


) - 100 = 27 Prozentpunkte, (7.2) 


oder kann direkt aus den Spaltenprozenten (Tabelle 7.4) bestimmt wer- 
den: 65 % — 38% = 27 Prozentpunkte. Die Prozentsatzdifferenz hat einen 
Wertebereich von -100 bis +100. Je größer der absolute Wert, umso stär- 
ker der Zusammenhang. Bei statistischer Unabhängigkeit zweier Merkmale 
(Tabelle 7.5) ist die Prozentsatzdifferenz null. 


Die Prozentsatzdifferenz ist ein asymmetrisches Zusammenhangsmaß. Sie 
hängt davon ab, welches Merkmal als abhängig und welches als unabhän- 
gig betrachtet wird. Hier wurde die Einstellung zum Schwangerschafts- 
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abbruch in Abhängigkeit vom Erhebungsgebiet betrachtet. Wird dage- 
gen das Erhebungsgebiet als abhängiges Merkmal betrachtet (was wenig 
Sinn ergibt, da wohl niemand wegen seiner Einstellung zur Abtreibung 
den Wohnort verlagert), dann ändert sich die Prozentsatzdifferenz. Nur 
(410/1811) - 100 = 22,6% der Gegner eines Schwangerschaftsabbruchs le- 
ben in Ostdeutschland, aber (676/1423) - 100 = 47,5% der Befürworter. 
Die Prozentsatzdifferenz beläuft sich auf [(410/1811) — (676/1423)]- 100 = 
—25 Prozentpunkte. 


7.2.2 Odds-Ratio 


Für das Verständnis logistischer Regressionen sind Odds (Chancen) und 
Odds-Ratios (Chancenverhältnisse) von zentraler Bedeutung. Für eine bi- 
näre abhängige Variable geben die Odds die Häufigkeit des interessieren- 
den Ereignisses (Ablehnung eines Schwangerschaftsabbruchs) zur Häufig- 
keit des Gegenereignisses (Befürwortung eines Schwangerschaftsabbruchs) 
an. 


Odds = Häufigkeit Ereignis l 
Häufigkeit Gegenereignis 


(7.3) 
Treten beide Kategorien gleich häufig auf, dann betragen die Odds 1. 
Die Odds haben einen Wert größer eins, wenn das interessierende Ereig- 
nis häufiger auftritt als das Gegenereignis. Sie sind kleiner 1, wenn das 
interessierende Ereignis seltener auftritt als das Gegenereignis. Odds ha- 
ben einen Wertebereich von 0 bis +00. Für die westdeutschen Befragten 
betragen die Odds der Ablehnung eines Schwangerschaftsabbruchs 


1401 
OddswWest = Far 


=1,88. (7.4) 
Die Ablehnung des Schwangerschaftsabbruchs ist für westdeutsche Be- 
fragte 1,9-mal häufiger als die Zustimmung. Es kommen 1,9 Ablehnungen 
auf eine Zustimmung. Umgekehrt ist das Verhältnis von Zustimmung zu 
Ablehnung 1 zu 1,9 (1/1,9—0,53). Für ostdeutsche Befragte betragen die 
Odds 
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410 


Für Ostdeutsche ist die Ablehnung eines Schwangerschaftsabbruchs selte- 
ner als die Befürwortung (Odds < 1). Die Chance der Ablehnung eines 
Schwangerschaftsabbruchs beträgt 0,6 zu 1. Die Chancen einer Befürwor- 
tung 1/0,6 = 1,66. Die Odds für westdeutsche und ostdeutsche Befragte 
werden als konditionale Odds bezeichnet. Konditionale Odds sind durch 
die Ausprägungen (West, Ost) eines unabhängigen Merkmals (Erhebungs- 
gebiet) bedingt. 


Odds sind keine Wahrscheinlichkeiten. Die über den Anteil geschätzte 
Wahrscheinlichkeit der Ablehnung eines Schwangerschaftsabbruchs bei 
Östdeutschen beträgt 0,38. Die Wahrscheinlichkeit setzt die interessieren- 
de Kategorie allen Kategorien ins Verhältnis, die Odds setzen dagegen 
die interessierende Kategorie zur Gegenkategorie ins Verhältnis. Wahr- 
scheinlichkeiten können leicht in Odds umgerechnet werden. Dazu wird 
die Wahrscheinlichkeit des Ereignisses p durch die Wahrscheinlichkeit al- 
ler anderen Ereignisse (1 — p) dividiert (Gleichung 7.6). Für Ostdeutsche 
also 0, 38/(1 — 0,38) = 0,61. 


Odds = — (7.6) 


Besteht ein Zusammenhang zwischen dem Erhebungsgebiet und der Ein- 
stellung zur Abtreibung, dann unterscheiden sich die Odds der westdeut- 
schen Befragten von den Odds der ostdeutschen Befragten. Um die kondi- 
tionalen Odds miteinander zu vergleichen, wird das Verhältnis, die Odds- 
Ratio (das Chancenverhältnis), gebildet. 


Odds: 
Oddsa 


Odds-Ratio = (7.7) 


Die Odds-Ratio beträgt für west- und ostdeutsche Befragte 1,88/0,61 = 
3,1. Die Chance der Westdeutschen einen Schwangerschaftsabbruch ab- 
zulehnen, beträgt das 3,1fache der Chance der Östdeutschen. Oder um- 
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gekehrt ausgedrückt: Die Chance der Ostdeutschen, Schwangerschaftsab- 
brüche abzulehnen, beträgt ca. ein Drittel (1/3,1= 0,32) der Chance für 
Westdeutsche. 


Odds-Ratios haben einen Wertebereich von 0 bis oo. Sind die beiden kon- 
ditionalen Odds identisch (kein Zusammenhang), dann nimmt die Odds- 
Ratio den Wert 1 an. Ein Odds-Ratio > 1 bedeutet, dass die Odds für 
Gruppe 1 größer sind als die Odds für Gruppe 2. Ein Odds-Ratio < 1 
zeigt, dass die Odds für Gruppe 1 kleiner sind als für Gruppe 2. Je weiter 
der Wert von 1 entfernt ist, umso stärker ist der Zusammenhang zwischen 
den beiden Merkmalen. Ein Odds-Ratio von 4 gibt einen stärkeren Zu- 
sammenhang wieder als ein Odds-Ratio von 1,5. Ein Odds-Ratio von 0,25 
drückt einen stärkeren Zusammenhang aus als ein Ödds-Ratio von 0,4. Um 
die Stärke des Zusammenhangs von Odds-Ratios < 1 mit Odds-Ratios > 1 
zu vergleichen, wird der Kehrwert der Odds-Ratios betrachtet, die kleiner 
1 sind. Eine Odds-Ratio von 2 drückt einen gleich starken Zusammenhang 
aus wie eine Odds-Ratio von 0,5 (1/0,5—=2), allerdings in unterschiedlicher 
Richtung. Dies wird deutlich, wenn man den natürlichen Logarithmus der 
Odds-Ratios berechnet: ln 0,5 = —0,69 und In2 = +0,69. 


Odds-Ratios zählen zu den symmetrischen Zusammenhangsmaßen. Die 
Größte der Odds-Ratio hängt also nicht davon ab, welches der beiden Merk- 
male als abhängig oder unabhängig betrachtet wird. 


Ein Kritikpunkt an Odds-Ratios besteht darin, dass sie nichts mehr über 
die Größe der Odds (und Wahrscheinlichkeiten) aussagen: Eine Odds- 
Ratio von beispielsweise 2 kann daraus resultieren, dass die Odds für 
Gruppe 1 0,02 und für Gruppe 2 0,01 betragen (0,02/0,01—=2). Die Odds 
für das interessierende Ereignis sind dann für Gruppe 1 zwar doppelt so 
hoch, allerdings auf einem sehr niedrigen Niveau. 


7.3 Maße für zwei nominalskalierte Merkmale 


Prozentsatzdifferenz und Odds-Ratio sind Maße für die Stärke des Zu- 
sammenhangs in 2 x 2-Tabellen. In Mehrfeldertabellen lassen sich meh- 
rere Prozentsatzdifferenzen und Odds-Ratios berechnen. Auch für Mehr- 
feldertabellen gibt es Maßzahlen, die den Zusammenhang zwischen zwei 
Merkmalen in einer einzigen Zahl ausdrücken. Nominalskalierte Zusam- 
menhangsmaße haben einen Wertebereich von 0 bis 1. Null bedeutet kein 
Zusammenhang; eine eins gibt ein perfekten Zusammenhang an. Sie sind 
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vorzeichenlos, weil die Ausprägungen nominalskalierter Merkmale keine 
Rangordnung aufweisen. 


7.3.1 Kontingenzkoeffizient C und Cramers V 


Cramörs V und der Kontingenzkoeffizient © sind x?-basierte Zusammen- 
hangsmaße. Ausgangspunkt zur Berechnung von x? (chi?) sind die beob- 
achteten Häufigkeiten Ju und die bei statistischer Unabhängigkeit er- 
warteten Häufigkeiten Zu. die in den Tabellen 7.4 und 7.5 auf S. 143 
dargestellt sind. 


Je größer die Differenz zwischen beobachteten und erwarteten Häufigkei- 
ten, umso stärker weichen die Daten vom Modell statistischer Unabhän- 
gigkeit ab. Wie man in Tabelle 7.4 sieht, lehnen 1401 westdeutsche Befrag- 
te einen Schwangerschaftsabbruch ab (linke obere Zelle). Bei statistischer 
Unabhängigkeit der beiden Merkmale Erhebungsgebiet und Einstellung 
zum Schwangerschaftsabbruch müssten ca. 1203 (1202,9) westdeutsche Be- 
fragte einen Schwangerschaftsabbruch ablehnen (Tabelle 7.5). Die Diffe- 
renz zwischen den beobachteten und den erwarteten Häufigkeiten beträgt 
für die linke obere Zelle Juan — fein) = 1401 — 1202,9 = 198,1. Es ha- 
ben mehr westdeutsche Befragte (198,1) einen Schwangerschaftsabbruch 
abgelehnt, als wir es bei statistischer Unabhängigkeit beider Merkmale 
erwarten würden. 


Die Differenz zwischen beobachteten und erwarteten Häufigkeiten muss für 
jede Zelle berechnet werden. Die Summe dieser einfachen Abweichungen 
für alle Zellen ist bei jeder Kreuztabelle null und deshalb als Maß der Ab- 
hängigkeit beider Merkmale ungeeignet. Die Differenz zwischen erwarte- 
ten und beobachteten Häufigkeiten wird deshalb quadriert: ( fetij) — fean). 
Durch die Quadrierung fallen die negativen Vorzeichen weg. Zudem werden 
große Abweichungen der beobachteten von den erwarteten Häufigkeiten 
stärker gewichtet als kleinen Abweichungen. Ob eine bestimmte Abwei- 
chung als groß oder klein zu bewerten ist, hängt außerdem davon ab, wie 
groß die erwartete Häufigkeit ist: Sowohl in der Zelle links oben (fu) als 
auch in der Zelle rechts unten (f2) beträgt die Differenz zwischen erwar- 
teten und beobachteten Häufigkeiten 198,1. Diese Differenz fällt bei einer 
erwarteten Häufigkeit von 1202,9 (links oben) weniger stark ins Gewicht 
als bei einer erwarteten Häufigkeit von 477,9 (rechts unten). Die quadrierte 
Differenz (foj) — Sein)? wird deshalb an der erwarteten Häufigkeit einer 
Zelle Luz relativiert: 
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(han — Lal? 
Jets) 


Die Maßzahl x? ist nun nichts anderes als die Summe dieser quadrierten 
und an den erwarteten Häufigkeiten relativierten Abweichungen für alle 
Zellen: 


l m 
(han — fean)” 
L=) u - COLES (7.8) 
e SU 


Die Summenzeichen geben an, dass (fogj) — fetij))/ feaj) für alle Zellen be- 
rechnet und dann addiert wird. Für den Zusammenhang zwischen Erhe- 
bungsgebiet und Einstellung zur Abtreibung resultiert ein x?-Wert von 


2 (1401 — 1202,9)? (410 — 608,2)? (747 — 945,2)? (676 — 477,9)? 
1202, 9 608, 2 945,2 477,9 
=221. 


Ein x?-Wert von null bedeutet kein Zusammenhang. x? ist als Maß der 
Stärke eines Zusammenhangs jedoch ungeeignet, weil der x?-Wert von der 
Zahl der Beobachtungen abhängt. Würde man die beobachteten Häufig- 
keiten in den Zellen von Tabelle 7.4 verdoppeln, dann würde sich auch der 
x>-Wert verdoppeln, ohne dass sich an der prozentualen Verteilung — dem 
Zusammenhang — etwas ändert. (Wir werden in Kapitel 12 jedoch sehen, 
dass x? für die schließende Statistik eine große Bedeutung hat.) 


Aus diesem Grund wurden Maße vorgeschlagen, die x? normieren: Der 
Kontingenzkoeffizient C und Cramörs V. 


e Der Kontingenzkoeffizient C hat einen Wertebereich zwischen 0 und 
einem definierten Maximum Cmar. © berechnet sich nach der Formel 


(7.9) 
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n ist hier wieder die Anzahl der Messwerte. Die maximale Größe des 
Kontingenzkoeffizienten ist abhängig von der Zahl der Zeilen bzw. 
Spalten einer Tabelle und läßt sich nach 


( = a R = min(l,m) (7.10) 
bestimmen. R ist das Minimum der Zeilen- bzw. Spaltenzahl. In einer 
2x 2-Tabelle ist R = 2, in einer Tabelle mit 3 Zeilen und 4 Spalten ist 
R=3, in einer Tabelle mit 4 Zeilen und 3 Spalten ist R ebenfalls 3. In 
einer 2 x 2-Tabelle kann C maximal den Wert Cmar = Y(2-1)/2 = 
0,707 annehmen. 

Im Beispiel resultiert ein Zusammenhang der Stärke 


221 5 
221 +3234 


— 0,25. 

e Weil Kontingenzkoeffizienten aus Tabellen unterschiedlicher Größe nur 
bedingt vergleichbar sind, ist Cramers V vorzuziehen. Cramers V nor- 
miert den x?-Wert, indem dieser durch den maximal erreichbaren x?- 
Wert in einer Tabelle dividiert wird (Gleichung 7.11). In einer 2 x 2- 
Tabelle kann x? maximal so groß sein wie die Zahl der Beobachtungen 
n, hier also 3234. In Mehrfeldertabellen ist x2,,, =n(R- 1), wobei R 
auch hier dem Minimum der Zeilen- bzw. Spaltenzahl entspricht. 


2 2 
Cramers V = a = =D (7.11) 


Cramers V nimmt für unser Beispiel den Wert 


221 
Cramérs V = 3231. 0-1) = 0,26 


an. Für 2 x 2-Tabellen ist Cramérs V vom Betrag identisch mit o 
(vgl. zur Herleitung Kühnel und Krebs 2007, 336). Aufgrund unter- 


schiedlicher Berechnungsarten kann o allerdings negative Vorzeichen 
annehmen. 
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Cramers V und der Kontingenzkoeffizient fallen also ungefähr gleich hoch 
aus. Ein Cramérs V von 0,26 liegt im unteren Bereich auf einer Skala von 
0 bis 1, deutet also auf einen geringen Zusammenhang hin. Zu beachten ist 
allerdings, dass die empirisch zu beobachtenden Werte von Cramers V in 
der Regel weit vom Maximalwert 1 entfernt sind. Cramörs V-Werte zwi- 
schen 0,1 und 0,2 werden als schwache Zusammenhänge angesehen. Die 
Interpretation der Stärke des Zusammenhangs ist mit Ausnahme der Ex- 
tremwerte 0 — kein Zusammenhang — und 1 - perfekter Zusammenhang — 
jedoch nicht eindeutig. In der Literatur herrschen unterschiedliche Auffas- 
sungen darüber, ab wann ein durch Cramörs V gemessener Zusammenhang 
als stark zu bezeichnen ist. 


Ein anderer Kritikpunkt ist der, dass eine einzige Maßzahl nur wenig über 
die Art des Zusammenhangs zwischen zwei mehrfach gestuften, nominal- 
skalierten Merkmalen aussagt. Für den Zusammenhang zwischen der Re- 
ligionszugehörigkeit und der Einstellung zur Abtreibung (Tabelle 7.6) be- 
trägt Cramers V 0,17 (x? = 61,99). Dieser Wert deutet auf einen schwa- 
chen Zusammenhang hin. Wie sich die Angehörigen verschiedener Reli- 
gionen/Konfessionen in ihren Einstellungen unterscheiden, geht daraus 
nicht hervor. Dazu muss das Antwortverhalten der einzelnen Religions- 
gruppen miteinander verglichen werden — am einfachsten anhand der pro- 
zentualen Verteilung. Man sieht, dass katholische Befragte und Befragte 
einer nichtchristlichen Glaubensgemeinschaft einen Schwangerschaftsab- 
bruch prozentual am stärksten ablehnen. Die geringste Ablehnung äußern 
konfessionslose Befragte (Spalte ‚Keine‘). 


Tabelle 7.6: Einstellung zur Abtreibung nach Religion - Beobachtete 
Häufigkeiten und Spaltenprozente 


Religion 
Abtrei- | Evang./ Kath. Andere Nicht Keine 
bung? Freik. christl. cher), Gesamt 
nein 541 (64%) 564 (71%) 33 (66%) 78 (80%) 177 (50%)|1393 (65%) 
ja 301 (36%) 226 (29%) 17 (34%) 19 (20%) 180 (50%)| 743 (35%) 
Gesamt |842 (100%) 790 (100%) 50 (100%) 97 (100%) 357 (100%) |2136 (100%) 


ALLBUS 2006. Westdeutsche Befragte. 
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7.3.2 Das PRE-Maß lambda (X) 


Die Stärke des Zusammenhangs zwischen zwei Merkmalen wird bei den 
PRE-Mafßen (PRE = Proportional Reduction in Error) daran gemessen, 
wie gut die Werte eines abhängigen Merkmals durch die Kenntnis eines 
unabhängigen Merkmals vorhergesagt werden können. A (lambda) ist ein 
PRE-Maß für nominale Daten. 


Zur Illustration wird die Bundestagswahl 1994 herangezogen. Gegen den 
seit 1982 amtierenden Kanzler Helmut Kohl trat 1994 Rudolf Scharping 
als Spitzenkandidat für die SPD an, nachdem es Oskar Lafontaine 1990 
nicht gelungen war, einen Regierungswechsel herbeizuführen. Vor der Wahl 
erhob die Forschungsgruppe Wahlen die Wahlabsicht in einer Umfrage. 
Von 881 westdeutschen Befragten, die eine Partei angaben, wollten 350 
Befragte die CDU/CSU und 345 Befragte die SPD wählen. 186 Befragte 
wollten ihre Stimme einer anderen Partei zukommen lassen. 


Bei der Berechnung eines PRE-Maßes wird zunächst versucht, den Wert 
der abhängigen Variablen ohne Kenntnis einer unabhängigen Variablen zu 
prognostizieren (Schritt 1). Die beste Prognose für ein nominales Merkmal 
ist deren Modalwert (Modus). Bei Prognose des Modus werden die wenigs- 
ten Fehler gemacht. Der Modus der Wahlabsicht ist die CDU/CSU. Bei 
Prognose einer CDU/CSU-Wahlabsicht liegen wir in 350 Fällen richtig, 
denn so viele Personen haben ja tatsächlich eine Wahlabsicht zugunsten 
der CDU/CSU angegeben. In 531 (345+186) Fällen — das sind die Befrag- 
ten, die nicht CDU/CSU wählen wollten - irren wir uns. Bei der Vorher- 
sage einer anderen Partei, z. B. der SPD, würden wir jedoch in noch mehr 
Fällen — nämlich bei 536 (350 + 186) Personen - falsch liegen. Die Summe 
der Fehler bei Prognose der abhängigen Variablen ohne Berücksichtigung 
einer unabhängigen Variablen nennen wir Fehler;. 


Zur Prognose der abhängigen Variable wird nun eine unabhängige Varia- 
ble herangezogen (Schritt 2). Zur Prognose der Wahlabsicht verwenden wir 
die Kanzlerpräferenz. In Abbildung 7.7 auf der nächsten Seite ist der Zu- 
sammenhang zwischen der Kanzlerpräferenz und der Wahlabsicht wieder- 
gegeben. Für jede Ausprägung der unabhängigen Variablen wird der Wert 
der abhängigen Variablen nun getrennt prognostiziert. Der beste Progno- 
sewert ist der Modalwert der konditionalen, d.h. durch die Ausprägung 
des unabhängigen Merkmals bedingten, Verteilung des abhängigen Merk- 
mals. Für die 444 Befragten, die Helmut Kohl als Kanzler bevorzugen, 
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prognostizieren wir die Wahl der CDU/CSU, weil die CDU/CSU hier am 
häufigsten genannt wurde. In 335 Fällen treffen wir mit dieser Prognose ins 
Schwarze, in 109 Fällen (25 SPD-Wähler und 84 Wähler anderer Parteien) 
irren wir uns. Unsere Prognose für die 437 Befragten, die Rudolf Scharping 
bevorzugen, lautet dagegen SPD (Modalkategorie). Hier schätzen wir die 
Wahlabsicht von 320 Personen richtig ein, dagegen irren wir uns in 117 
(15+102) Fällen — denjenigen Befragten, die trotz einer Präferenz für Ru- 
dolf Scharping nicht die SPD wählen wollen. Die Summe der Fehler, die 
wir trotz Berücksichtigung der unabhängigen Variablen begehen, nennen 
wir Fehlers. Allgemein berechnet man Fehlers, indem man für jede Ausprä- 
gung der unabhängigen Variablen die Prognosefehler berechnet und diese 
summiert. Im Beispiel berechnen wir also für die erste Ausprägung der un- 
abhängigen Variablen (Helmut Kohl als bevorzugter Kanzlerkandidat) 109 
Fehler und für die zweite Ausprägung (Rudolf Scharping als bevorzugter 
Kanzlerkandidat) 117 Fehler. Fehlers beträgt also 109 + 117 = 226. 


Tabelle 7.7: Zusammenhang von Kanzlerpräferenz und Wahlabsicht 


Kanzlerpräferenz 
Wahlabsicht Kohl Scharping | Summe 
CDU/CSU 335 15 350 
SPD 25 320 345 
Andere 84 102 186 
Summe 444 437 881 


Quelle: Forschungsgruppe Wahlen, Blitzumfrage Oktober 1994, nur Westdeutsche 


Der letzte Schritt besteht nun in der Ermittlung des PRE-Maßes (Schritt 
3): 


(Fehler, — Fehlers) 


PRE-Maß = 
Fehler; 


(7.12) 


Diese Formel ist für alle PRE-Maße identisch. Lediglich die Berechnung 
der Fehler unterscheidet sich, wie wir bei 7? sehen werden. Je kleiner 
Fehler, im Vergleich zu Fehler; ist, umso besser wird die abhängige durch 
die unabhängige Variable prognostiziert. Zusätzlich wird die Differenz zwi- 
schen Fehler, und Fehler, auf einen Wertebereich zwischen 0 und 1 nor- 
miert, indem durch Fehler; dividiert wird. 
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A kann Werte zwischen 0 und +1 annehmen. A ist 0, wenn die unabhängige 
Variable die Prognose nicht verbessert und den Wert 1, wenn wir den Wert 
der abhängigen Variable in allen Fällen durch die unabhängige Variable 
richtig vorhersagen. A kann — multipliziert mit 100 — wie jedes PRE-Maß 
anschaulich prozentual interpretiert werden. 


Inwieweit wurde die Vorhersage der Wahlabsicht nun durch die Kenntnis 
des bevorzugten Kanzlers verbessert? Im Beispiel ergibt sich: 


E (Fehler, — Fehlers) (531 — 226) 057 
= Fehler, een 


Die Fehler bei der Prognose der Wahlabsicht werden durch die Kenntnis 
der Kanzlerpräferenz also um 57% verringert. 


A ist ein asymmetrisches Maß. Je nachdem, welche Variable als abhängig 
und welche als unabhängig betrachtet wird, ergibt sich also ein unter- 
schiedlicher Wert für A. Für die Vorhersage des präferierten Kanzlerkan- 
didaten durch die Wahlabsicht (was eine Vertauschung der abhängigen 
und der unabhängigen Variablen bedeutet) ergibt sich ein A von 0,72. Die 
unterschiedlichen Werte resultieren aus der unterschiedlichen Berechnung 
von Fehler: einmal liegt dessen Berechnung die Wahlabsicht zugrunde, 
das andere Mal die Kanzlerpräferenz. 


Für den Zusammenhang zwischen Erhebungsgebiet und Einstellung zur 
Abtreibung (Tabelle 7.4) beträgt A 0,19. Der durch A gemessene Einfluss 
der Religionszugehörigkeit auf die Einstellung zum Schwangerschaftsab- 
bruch (Tabelle 7.6) liegt nahe null, nämlich bei 0,04. Cramörs V deutet 
dagegen auf einen schwachen Zusammenhang hin. 


An diesem Beispiel lässt sich ein Nachteil von A demonstrieren. A kann 
einen Wert von null annehmen, obwohl andere Zusammenhangsmaße wie 
Cramörs V einen Zusammenhang ausweisen. Und zwar dann, wenn die 
Modalkategorie des abhängigen Merkmals für jede Ausprägung des unab- 
hängigen Merkmals identisch ist. In Tabelle 7.6 prognostizieren wir für jede 
Konfessions- /Religionszugehörigkeit die Ausprägung ‚nein‘. Lediglich für 
Konfessionslose (‚Keine‘) prognostizieren wir ‚ja‘. Selbst bei Konfessions- 
losen sind beide Ausprägungen des abhängigen Merkmals (nein/ja) jedoch 
ungefähr gleich stark besetzt, so dass sich die Prognose durch Kenntnis 
der Religionszugehörigkeit nur geringfügig verbessert. 
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7.4 Maße für zwei ordinalskalierte Merkmale 


Bei ordinalskalierten Merkmalen können wir neben der Stärke auch die 
Richtung des Zusammenhangs angeben. Ein positiver (negativer) Zusam- 
menhang liegt vor, wenn höhere Werte auf der einen Variablen mit höheren 
(niedrigeren) Werten auf der anderen Variablen einhergehen. Zusammen- 
hangsmaße für ordinalskalierte Merkmale haben einen Wertebereich von 
—1 bis +1, wobei —1 ein perfekter negativer Zusammenhang ist, +1 da- 
gegen ein perfekter positiver Zusammenhang. Null bedeutet wie bei den 
nominalskalierten Merkmalen, dass kein Zusammenhang vorliegt. 


Es gibt eine Vielzahl an Zusammenhangsmaßen für ordinalskalierte Merk- 
male. Die am häufigsten verwendeten sind Maße, die auf dem Paarver- 
gleich basieren: Kendalls tau-Maße (7, und 7.) und gamma (y). Wir be- 
schränken uns auf y. y hat den Vorteil, dass es wie ein PRE-Maß inter- 
pretiert werden kann. 


gamma (7) 


Zum Verständnis der Berechnung von y ist es notwendig, sich die Logik des 
Paarvergleichs vor Augen zu führen. Als Beispiel dient der Zusammenhang 
zwischen dem Schulabschluss und dem politischen Interesse (Tabelle 7.8). 
Beide Variablen sind ordinalskaliert, d. h. sie weisen eine Ordnung auf. Wir 
unterstellen, dass der Schulabschluss das politische Interesse beeinflusst. 


Tabelle 7.8: Kreuztabelle zwischen Bildung und politischem Interesse 


Schulabschluss 


Pol. Interesse | Hauptschule | Realschule | FH/Abitur | Summe 
Kein 228 72 10 310 
Wenig 386 209 67 662 
Mittel 741 460 244 1445 
Stark 219 189 229 637 
Sehr stark 75 87 103 265 
Summe 1649 1017 653 3319 


Quelle: ALLBUS 1994 


Ein Befragter kann z. B. einen „Hauptschulabschluss“ und „kein politisches 
Interesse“ haben, ein anderer einen „Realschulabschluss“ und „wenig poli- 
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tisches Interesse“. In der Logik des Paarvergleichs wird dieses Paar als 
konkordant oder gleichgerichtet bezeichnet, da der zweite Befragte 
einen höheren Schulabschluss und ein höheres politisches Interesse hat 
als der erste Befragte. Ein Paar wird als konkordant bezeichnet, wenn die 
Person, die einen höheren Wert auf der einen Variablen aufweist, auch 
einen höheren Wert auf der anderen Variablen hat. Konkordante Paare 
deuten auf einen positiven Zusammenhang zwischen zwei Variablen hin. 
Insgesamt gibt es 228 Personen mit „Hauptschulabschluss“ und „keinem 
politischen Interesse“; 209 Personen haben einen „Realschulabschluss“ und 
„wenig politisches Interesse“. Alle 209 Personen dieser Zelle haben einen 
höheren Schulabschluss und ein größeres politisches Interesse als die 228 
Personen, die in der Zelle links oben verortet sind, d.h. sie weisen bei bei- 
den Merkmalen „mehr“ auf. Die Anzahl konkordanter Paare (N.) dieser 
beiden Zellen berechnet sich aus der Multiplikation der Zellhäufigkeiten, 
also 228 x 209 = 47.652 Paare, denn jeder Befragte aus der einen Zelle 
bildet mit jedem Befragten der anderen Zelle ein Paar. Alle Personen, die 
sich in Zellen rechts und unterhalb einer Ausgangszelle befinden, haben 
auf beiden Merkmalen einen höheren Wert. Die Zahl der konkordanten 
Paare für die linke obere Zelle (228 Befragte) berechnet sich daher als 
228 - (209 + 67 + 460 + 244 + 189 + 229 + 87 + 103). 


Zur Ermittlung der Gesamtzahl konkordanter Paare wird jede Zelle der 
Tabelle einmal zur Ausgangszelle. Zu den Zellen in der untersten Zeile 
sowie in der äußersten rechten Spalte existieren keine Zellen, die rechts 
und unterhalb liegen. Man fängt am besten in der linken oberen Zelle mit 
der Berechnung an: 


N. = 228 : (209 + 460 + 189 + 87 + 67 + 244 + 229 + 103) 
72: (67 + 244 + 229 + 103) 

+ 386 - (460 + 189 + 87 + 244 + 229 + 103) 

+ 209 - (244 + 229 + 103) 
+ 741 - (189 + 87 + 229 + 103) 
+ 460 - (229 + 103) 

+219 (87 + 103) 

+ 189 - (103) 

= 1699501 


Es kann jedoch vorkommen, dass eine Person einen „Realschulabschluss“ 
erworben hat und nur „wenig“ politisch interessiert ist, eine andere Person 


158 Zusammenhangsmaße 


dagegen einen „Hauptschulabschluss“ und ein „starkes politisches Interes- 
se“ aufweist. Fin solches Paar wird diskordant oder ungleichgerichtet 
genannt, da die zweite Person gegenüber der ersten bei der einen Variablen 
„weniger“ aufweist, bei der anderen Variablen dagegen „mehr“. Diskordan- 
te Paare geben einen negativen Zusammenhang zwischen zwei Variablen 
wieder, da höhere Werte auf der einen Variable mit niedrigeren Werten auf 
der anderen Variablen einhergehen. Auch für die Gesamtzahl diskordanter 
Paare (N4) gibt es eine allgemeine Berechnungsvorschrift: Alle Häufigkei- 
ten in Zellen, die links und unterhalb einer Ausgangszelle liegen, werden 
mit der Häufigkeit der Ausgangszelle multipliziert, wobei auch hier jede 
Zelle einmal zur Ausgangszelle wird. Zu Zellen in der ganz linken Spalte 
und der untersten Zeile existieren keine Zellen, die links und unterhalb 
liegen — hier kann es also keine diskordanten Paare geben. Mit der Berech- 
nung starten wir in der Zelle rechts oben: 


Na = 10 - (386 + 741 + 219 + 75 + 209 + 460 + 189 + 87) 
+72: (386 + 741 + 219 + 75) 
+ 67 (741 + 219 + 75 + 460 + 189 + 87) 


+ 209 - (741 + 219 + 75) 
+ 244. (219 + 75 + 189 + 87) 
+ 460 - (219 + 75) 
+ 229 . (75 + 87) 
+ 189 - (75) 
= 786537 


In unserem Beispiel ermitteln wir also 1.699.501 konkordante und 786.537 
diskordante Paare. Überwiegen in einer Tabelle — wie in diesem Fall — die 
konkordanten Paare, so liegt ein positiver Zusammenhang vor. Der Zusam- 
menhang zwischen zwei Variablen ist negativ, wenn es mehr diskordante 
als konkordante Paare gibt. Zwischen beiden Variablen besteht kein Zu- 
sammenhang, wenn die Zahl konkordanter und diskordanter Paare gleich 
groß ist. 


Bei der Berechnung des Ordinalmaßes y wird nun einfach die Differenz 
zwischen konkordanten und diskordanten Paaren ins Verhältnis zu allen 
konkordanten und diskordanten Paaren gesetzt: 
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O Ne- Na 


TaN 


(7.13) 


y nimmt Werte zwischen —1 und +1 an. Das Vorzeichen gibt an, ob ein ne- 
gativer oder positiver Zusammenhang vorliegt. Je größer der Unterschied 
zwischen der Zahl konkordanter und diskordanter Paare, umso stärker ist 
der Zusammenhang und damit der Betrag von y. y erreicht sein Maximum 
von +1, wenn in einer Tabelle nur konkordante, jedoch keine diskordan- 
ten Paare vorliegen. Den Wert —1 nimmt y nur dann an, wenn es in einer 
Tabelle nur diskordante, aber keine konkordanten Paare gibt. y ist ein 
symmetrisches Maß. Der Wert von y ist also unabhängig davon, welche 
der Variablen als abhängig bzw. unabhängig betrachtet wird. 


Zwischen Schulabschluss und politischem Interesse ermitteln wir einen 
Wert von 


__ 1699501 — 786537 912964 
1699501 + 786537 2486038 


= 0,367. 


Ein Wert von 0,367 deutet auf einen relativ starken positiven Zusammen- 
hang hin. Das heißt: Je höher der Bildungsabschluss, umso stärker ist das 
politische Interesse. Ein negatives Vorzeichen würde bedeuten, dass mit 
höherer Bildung das politische Interesse abnimmt. Bei der Interpretation 
des Vorzeichens ist allerdings die Kodierung der Variablen zu beachten. Die 
Berechnung des Kennwertes erfolgt ja nır anhand der zugewiesenen Zah- 
lenwerte, ungeachtet der dahinterstehenden inhaltlichen Merkmalsausprä- 
gungen.? 


y ist ebenfalls ein PRE-Maß. |y| kann — multipliziert mit 100 - als propor- 
tionale Fehlerreduktion interpretiert werden. Im Beispiel wird der Vorher- 
sagefehler um 36,7% verringert, wenn zur Prognose die Schulbildung der 
Befragten berücksichtigt wird. Ein y von —,50 würde bedeuten, dass der 
Prognosefehler um 50% verringert wurde. 


2 Um die Interpretation zu erleichtern, sollte die Zuordnung der Zahlenwerte zu den 
Merkmalsausprägungen so erfolgen, dass ein Anstieg der numerischen Werte auch 
mit einem Anstieg der inhaltlichen Ausprägung des Merkmals einhergeht. 
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Tabelle 7.9: Eckenkorrelation in einer 2x2-Tabelle 


Arbeiter „Arbeiter 
SPD 100 50 


Np=0, Nc=100(50)=5000, y = 1 


Weil y immer dann + 1 wird, wenn es in der Tabelle keine diskordanten 
bzw. keine konkordanten Paare gibt, werden auch bei einer ‚Eckenkorre- 
lation‘ perfekte Zusammenhänge ausgewiesen. In einer 2 x 2-Tabelle liegt 
eine Eckenkorrelation bereits bei einer unbesetzten Zelle vor (vgl. Tabel- 
le 7.9). Beschränkt sich eine Hypothese auf das Wahlverhalten von Arbei- 
tern (z.B. ‚Arbeiter wählen SPD‘), dann ist das dargestellte Ergebnis, y = 
1, erwünscht. Gemäß dieser Hypothese liegt ein perfekter Zusammenhang 
vor. Anders stellt sich die Situation dar, wenn die Hypothese beinhaltet, 
dass Arbeiter überproportional häufig SPD wählen und Nicht-Arbeiter 
(Arbeiter) überproportional häufig andere Parteien. Ein perfekter Zu- 
sammenhang im Sinne dieser Hypothese wäre nur dann gegeben, wenn 
ausschließlich die Diagonale besetzt wäre. Kendalls m (siehe unten) ist in 
diesem Fall ein angemesseneres Maß. m beträgt für Tabelle 7.9 0,58. 


Über die konkordanten und diskordanten Paare hinaus gibt es noch weitere 
Beziehungen zwischen Paaren in einer Kreuztabelle, die ties (Verknüpfun- 
gen). Insgesamt gibt es in jeder Tabelle SESCH Paare, die sich aus der Zahl 
konkordanter, diskordanter, in x verknüpfter, in y verknüpfter und in x 
und y verknüpfter Paare zusammensetzen. Ein Paar ist in x verknüpft, 
wenn es in x dieselben Werte, in y aber unterschiedliche Werte hat. Ei- 
ne Verknüpfung in y bedeutet denselben Wert in y, aber unterschiedliche 
Werte in x. In x und y ist ein Paar schließlich verknüpft, wenn dieselben 


Werte in x und y vorliegen, das Paar also in einer Zelle liegt. 


Kennwerte, die Verknüpfungen berücksichtigen, sind z.B. Kendalls tau- 
Maße (Ta, Tes Te) und Somers’ d. Kendalls r-Maße und Somers’ d un- 
terscheiden sich im Zähler nicht von y, dieser ist immer Ne — Np. Im 
Nenner werden jedoch zusätzlich zu Nc und Np Verknüpfungen berück- 
sichtigt. Der Nenner ist bei diesen Maßen daher größer als bei y. Aus 
diesem Grund nimmt y systematisch höhere Werte an als die r-Maße oder 
Somers’ d. Nur wenn gar keine Verknüpfungen in der Tabelle vorliegen, 
sind die Werte identisch. Solange man berücksichtigt, dass y systematisch 
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höhere Werte annimmt als die r-Maße und Somers’ d, spricht nichts ge- 
gen dessen Verwendung. Zudem ist der Betrag von y als proportionale 
Fehlerreduktion interpretierbar. 


7.5 Maß für ein nominalskaliertes und ein metrisches 
Merkmal: eta-Quadrat (n?) 


7? ist ein Maß für die Stärke des Zusammenhangs zwischen einem nomi- 
nalskalierten unabhängigen Merkmal und einem mindestens intervallska- 
lierten abhängigen Merkmal. Wir werden die Stärke des Zusammenhangs 
zwischen dem Geschlecht (nominal) und den Mathematikkenntnissen (me- 
trisch) in der bundesdeutschen Bevölkerung untersuchen. Die Alltagsthese 
dazu lautet, dass es Unterschiede zwischen den Geschlechtern gibt, und 
Männern der Umgang mit Zahlen leichter fällt als Frauen. Zur Überprü- 
fung der These verwenden wir Daten eines Leistungstests der bundesdeut- 
schen erwachsenen Bevölkerung, die 1994 im Rahmen einer international 
angelegten Untersuchung erhoben wurden — den International Adult Li- 
teracy and Lifeskills Survey (ALS), Vom Design ähnelt TALS den PISA- 
Untersuchungen. Getestet wurde aber kein schulisches Wissen, sondern 
Grundkompetenzen in verschiedenen Bereichen, unter anderem im Um- 
gang mit Zahlen (numeracy, Alltagsmathematik). In Abbildung 8.2 sind 
die Mathematikkenntnisse als Histogramm dargestellt. Die durchschnitt- 
lichen Kenntnisse (arithmetisches Mittel) lagen 1994 bei 292 Punkten auf 
einer Skala von 0 bis 500. 


Abbildung 7.1: Kenntnisse in Alltagsmathematik 


S4 ` arithmetisches Mittel = 292 Punkte 
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n? ist ebenso wie A (vgl. Kapitel 7.3.2) ein PRE-Maß. Zunächst wird 
versucht, die Ausprägung des abhängigen Merkmals ohne Kenntnis eines 
weiteren Merkmals vorherzusagen (Schritt 1). Für ein metrisches Merk- 
mal ist der beste Prognosewert dessen arithmetisches Mittel. Die Sum- 
me der quadrierten Abweichungen aller Messwerte vom arithmetischen 
Mittel ist minimal, wie wir aus Kapitel 6.1 wissen. Bei Verwendung des 
arithmetischen Mittels als Schätzwert begehen wir deshalb den kleinsten 
(quadratischen) Fehler. Die Größe des Fehlers entspricht der Summe der 
Abweichungsquadrate (abgekürzt: SAQ, vgl. Kapitel 6.2). Diese lässt sich 
aus den Einzelmesswerten oder aus der Varianz s? berechnen. 

e Für die 2062 Beobachtungen kann die Summe der Abweichungsqua- 


drate mit einem Statistik-Programm aus den Einzelmesswerten be- 
rechnet werden: 


n 2062 
BA = I (2; — 2)? A Tee 292)? = 4222956. 
i=l EH 


e Alternativ kann die Summe der Abweichungsquadrate leicht aus der 
Varianz s? und der Zahl der Beobachtungen n rückgerechnet werden. 
Die Varianz 3° = Lea) _ 54g der Kenntnisse in Alltagsmathema- 
tik beträgt 2048 Punkte. Die Summe der Abweichungsquadrate beläuft 
sich daher auf 


SAQges = X (mi — 2)? = $? - n = 2048 x 2062 = 4222955 


i=1 


Mit Ausnahme von Rundungsfehlern sind die Werte identisch. 


Im Beispiel beträgt die SAQ 4.222.956. Wir bezeichnen diese als Gesamt- 
summe der Abweichungsquadrate DA, da alle Merkmalsträger in die 
Berechnung einfließen (Fehler: 1 


Zur Prognose der abhängigen Variablen soll nun eine unabhängige Va- 
riable herangezogen werden (Schritt 2). Das Ausmaß der Verkleinerung 
des Vorhersagefehlers durch die unabhängige Variable gibt an, wie stark 
der Zusammenhang zwischen den beiden Variablen ist. Für jede Ausprä- 
gung der unabhängigen Variablen (Männer und Frauen) wird der Wert 
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der abhängigen Variablen (Mathematikkenntnisse) nun getrennt prognos- 
tiziert. 


Die Mathematikkenntnisse sind in Abbildung 7.2 getrennt für Männer 
und Frauen dargestellt. Die durchschnittlichen Mathematikkenntnisse be- 
tragen 296,14 Punkte für die n = 938 befragten Männer, bei einer Varianz 
s? von 2242,66. Für die n = 1124 befragten Frauen belaufen sich die 
Mathematikkenntnisse auf durchschnittlich 288,14 Punkte bei einer Vari- 
anz s? von 1856,46. Die Frauen schneiden also geringfügig (um 8 Punkte) 
schlechter ab als die Männer. 


Abbildung 7.2: Kenntnisse in Alltagsmathematik nach Geschlecht 
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Wir prognostizieren nun für Männer 296,14 Punkte und für Frauen 288,14 
Punkte auf der Skala. Wie man in Abbildung 7.2 sieht, weichen die Mathe- 
matikkenntnisse der Frauen und Männer von ihrem jeweiligen Gruppen- 
mittelwert ab. Die Summe der Abweichungsquadrate wird jetzt getrennt 
für Männer und Frauen berechnet: 
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938 

SAQ manner = I (zi — 296, 14)? = 2103617 und 
i=1 
1124 

Aen = I (ti — 288, 14)? = 2086659. 


i=1 


Im Beispiel beträgt die SAQ bei den Männern 2.103.617 und bei den 
Frauen 2.086.659. Die Summe dieser beiden Werte entspricht dem Feh- 
ler, der bei der Vorhersage der Mathematikkenntnisse bei Kenntnis des 
Geschlechts begangen wird (Fehlers): SAQkat = 2103617 + 2086659 = 
4.190.276. 


Der letzte Schritt besteht in der Ermittlung des PRE-Maßes (Schritt 3). 
Die Maßzahl ņ? berechnet sich nun einfach aus der Differenz von SARges 
und SAQkat dividiert durch SA ges: 


a _ Fehler, — Fehlers SAQges — SAQrat (7.14) 
8 Fehler, 8 SAQ l 


ges 


Im Beispiel ergibt sich: 


SAQpes — BAD 4222956 — 41902 
p = SAQ Qrar _ 4222956 = 4190276 A ue 
SAQ 4222956 


ges 


n? hat einen Wertebereich von 0 (kein Zusammenhang) bis +1 (perfekter 
Zusammenhang). Ein Zusammenhang der Stärke 0,008 ist zu vernach- 
lässigen (kein Zusammenhang). Da das unabhängige Merkmal nominal- 
skaliert ist, ist 7? vorzeichenlos. 7? kann — mit 100 multipliziert — pro- 
zentual interpretiert werden. Der Fehler bei Vorhersage der Mathematik- 
kennntnisse wird durch die Kenntnis des Geschlechts der Befragten um 
0,008 - 100 = 0, 8% verkleinert. 


Gelegentlich wird auch die Quadratwurzel aus 7? als Maß der Stärke des 
Zusammenhangs angegeben: 
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n= vV. (7.15) 


n kann ebenfalls Werte zwischen 0 und +1 annehmen. Im Beispiel resul- 
tiert 


n = vn = 0,0077 = 0,09. 


Auch n ist nahe null. Bei den Befragten des IALS 1994 ist das Geschlecht 
zur Erklärung unterschiedlich guter Mathematikkenntnisse bedeutungs- 
los. 


7.6 Maße für zwei metrische Merkmale: Kovarıanz und 
Produkt-Moment-Korrelation 


Kovarianz und Produkt-Moment-Korrelation messen die Stärke des linea- 
ren Zusammenhangs zwischen zwei mindestens intervallskalierten (metri- 
schen) Merkmalen. Die Produkt-Moment-Korrelation wird nach dem Sta- 
tistiker Karl Pearson auch als Pearsons r bezeichnet. Wenn ohne nähere 
Angabe von Korrelation gesprochen wird, dann ist meistens der Pear- 
son’sche Korrelationskoeffizient gemeint. 


Auch hier soll die Berechnung wieder an einem Beispiel verdeutlicht wer- 
den. Die CDU wurde nach dem Zweiten Weltkrieg als überkonfessionel- 
le Partei gegründet. Da sie das „Erbe“ der katholischen Zentrumspartei 
antrat, liegt die Vermutung nahe, dass auch die CDU besonders in ka- 
tholischen Gebieten verankert ist, was sich in den Wahlergebnissen nie- 
derschlagen müsste. Unsere Hypothese lautet: „Je höher der Anteil der 
Katholiken in einem Bundestagswahlkreis, umso höher ist der Stimmen- 
anteil der CDU“. Die Hypothese soll anhand der amtlichen Ergebnisse der 
Bundestagswahl 1994 für die 16 rheinland-pfälzischen Bundestagswahl- 
kreise überprüft werden. Merkmalsträger sind hier also nicht Personen, 
sondern Wahlkreise. Für jeden der 16 Wahlkreise liegt ein Messwertpaar 
vor, dass aus dem Katholikenanteil (x;) und dem Stimmenanteil der CDU 
(yi) besteht. Da es sich hier um Prozentwerte handelt, sind beide Merk- 
male ratioskaliert. 
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Der Zusammenhang zwischen zwei metrischen Merkmalen lässt sich in ei- 
nem Streudiagramm darstellen. In Abbildung 7.3 ist der Zusammenhang 
zwischen dem Anteil der Katholiken und dem (Zweit-)Stimmenanteil der 
CDU dargestellt. Auf der x-Achse ist der Katholikenanteil eines Wahlkrei- 
ses, auf der y-Achse der Stimmenanteil der CDU (an gültigen Stimmen) 
abgetragen. Beispielsweise betrug der Katholikenanteil im Wahlkreis 151 
(Bitburg) 91,4%, und die CDU erhielt dort knapp 53 % der gültigen Zweit- 
stimmen. 


Abbildung 7.3: Stimmenanteil der CDU und Katholikenanteil 
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Auch ohne ein Zusammenhangsmaß zu berechnen, sieht man bereits, dass 
der Stimmenanteil der CDU umso höher ausfällt, je größer der Katholi- 
kenanteil ist. Zwischen den beiden Merkmalen besteht also ein positiver 
Zusammenhang, d.h. wenn x; einen kleinen Wert annimmt, nimmt auch 
yi einen kleinen Wert an, wenn x; groß ist, ist auch y; groß. Ein nega- 
tiver Zusammenhang besteht dann, wenn die y;-Werte mit zunehmenden 
x;-Werten kleiner werden. Beispiel: Je höher der Arbeiteranteil in einem 
Wahlkreis, umso schlechter das Wahlergebnis der CDU. Kein Zusammen- 
hang besteht, wenn eine Veränderung des x;-Wertes die Größe des y;- 
Wertes nicht beeinflusst. 


Ob ein z;- bzw. y;-Wert groß oder klein ist, kann nicht absolut, sondern 
nur relativ zu allen anderen x;- bzw. y;-Messwerten bestimmt werden: Ein 
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Stimmenanteil von 38 % für die CDU wäre ein kleiner Wert verglichen mit 
den Wahlergebnissen der CDU in allen anderen 15 Wahlkreisen. Ebenso ist 
ein Katholikenanteil von 35% in den 16 rheinland-pfälzischen Wahlkrei- 
sen nicht sehr hoch, während der gleiche Prozentsatz in Schleswig-Holstein 
ein hoher Wert wäre. Große Messwerte sind daher Messwerte, die über- 
durchschnittlich sind, kleine Messwerte solche, die unterdurchschnittlich 
ausfallen. 


Die CDU erzielte im Durchschnitt in den 16 Wahlkreisen 43,96 % der gülti- 
gen Stimmen, und der durchschnittliche Katholikenanteil betrug 54,99 %. 
Große CDU-Werte sind also größer als 43,96%, große Katholikenanteile 
sind größer als 54,99% Katholiken. Wenn ein positiver Zusammenhang 
besteht, dann müßte ein überdurchschnittlicher Katholikenanteil auch ein 
überdurchschnittliches Stimmergebnis der CDU nach sich ziehen, ein un- 
terdurchschnittlicher Katholikenanteil dementsprechend ein unterdurch- 
schnittliches Wahlergebnis der CDU. Zeichnet man die arithmetischen 
Mittel z und % in die Graphik ein, erhält man vier Quadranten (vgl. Ab- 
bildung 7.4). 


Abbildung 7.4: Stimmenanteil der CDU und Katholikenanteil mit den 
jeweiligen Mittelwerten 
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Im linken unteren Quadranten liegen alle Wahlkreise, die einen un- 
terdurchschnittlichen Katholikenanteil und einen unterdurchschnittlichen 
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CDU-Stimmenanteil aufweisen. Im rechten oberen Quadranten befinden 
sich diejenigen Wahlkreise, die sowohl hinsichtlich des Katholikenanteils 
als auch des Stimmenanteils der CDU überdurchschnittlich abschneiden. 
Liegen die Messwertpaare hauptsächlich in diesen beiden Quadranten, 
dann variieren der Katholikenanteil und das Stimmergebnis der CDU po- 
sitiv miteinander. Mit Ausnahme eines Wahlkreises liegen alle Messwert- 
paare im linken unteren und rechten oberen Quadranten, was auf einen 
starken positiven Zusammenhang deutet. Bei einer negativen Korrelati- 
on müssten die Messwertpaare vor allem im linken oberen und rechten 
unteren Quadranten liegen, da die y;-Werte dann mit größer werdenden 
x;-Werten abnehmen müssten. Liegt keine Korrelation vor, dann sind die 
Messwertpaare relativ gleichmäßig über alle Quadranten verteilt. 


Um die Stärke des Zusammenhangs zu berechnen, muss berücksichtigt 
werden, wie weit die einzelnen Messwertpaare mit den Koordinaten (£;; yi) 
vom Schwerpunkt der Verteilung (z; y) abweichen. Dies tun wir, indem 
wir für jedes Messwertpaar zunächst die Differenzen (x; — z) und (y; — 9) 
berechnen. Diese Abweichungen sind für die beiden Wahlkreise Bitburg 
und Kaiserslautern in Abbildung 7.5 dargestellt. 


Abbildung 7.5: Stimmenanteil der CDU und Katholikenanteil in zwei 
Wahlkreisen 
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Im Wahlkreis Bitburg sind 91,4% der Bevölkerung katholisch, die Abwei- 
chung x; —£ beträgt 91,4— 54,99 = 36,41 Prozentpunkte. Die CDU erhielt 
dort 52,68% der gültigen Stimmen, also 8,72 Prozentpunkte mehr als im 
Durchschnitt aller Wahlkreise (y; — Y = 52,68 — 43,96). Das Abweichungs- 
produkt entspricht (2; —&)- (y;—Y) = 36,41 -8,72 = 317,5. Graphisch kann 
das Abweichungsprodukt — wie in Abbildung 7.5 auf der vorherigen Seite 
- als Fläche dargestellt werden.? Die Differenz (x; — X) entspricht der waa- 
gerechten Ausdehnung, die Differenz (um: — 3) der senkrechten Ausdehnung 
des Rechtecks. Im Wahlkreis Kaiserslautern ist der Katholikenanteil und 
der Stimmenanteil der CDU unterdurchschnittlich. Das Abweichungspro- 
dukt beträgt hier (x; — 7) - (y; — Y) = (34,89 — 54,99) - (37,68 — 43,96) = 
(—20,1) - (—6,28) = 126,2. Das Abweichungsprodukt ist also kleiner als 
im Wahlkreis Bitburg, was man bereits optisch an der Größe der Flächen 
erkennt. 


Die Kovarianz ist der Durchschnitt der Summe der Abweichungsprodukte 
für alle Messwertpaare. Während die Varianz die Streuung eines Merkmals 
bezeichnet, gibt die Kovarianz die gemeinsame Streuung zweier Merkmale 
an. 


nn = = (7.16) 


cov = 
Anzahl der Messwerte n 


Zur Berechnung der Kovarianz verwenden wir eine Arbeitstabelle (Tabel- 
le 7.10). In der ersten Spalte sind die Merkmalsträger — hier die Wahlkreise 
— verzeichnet, in der zweiten Spalte die Katholikenanteile (x;) und in der 
dritten Spalte die Wahlergebnisse der CDU (y;). Aus der zweiten und drit- 
ten Spalte lassen sich die arithmetischen Mittel des Katholikenanteils z 
und des Stimmenanteils für die CDU y ermitteln. Wenn dies geschehen 
ist, können die Abweichungen (2;—Z) und (y;— y) und daraus das Abwei- 
chungsprodukt (x; — 7) - (y; — Y) für jeden einzelnen Wahlkreis berechnet 
werden. Lediglich in einem Wahlkreis — Neustadt-Speyer — ist das Ab- 
weichungsprodukt negativ (unterdurchschnittlicher Katholikenanteil bei 
überdurchschnittlichem CDU-Anteil). Die Summe der Abweichungspro- 
dukte SAP beträgt im Beispiel 1189,13 (n = 16) und die Kovarianz 


3 Für Messwertpaare im linken oberen und rechten unteren Quadranten gibt die Grö- 
ße der Fläche den Betrag des Abweichungsprodukts an. 
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1189, 1 
cov = SC = 74,32. (7.17) 


Die Kovarianz ist null, wenn kein Zusammenhang besteht. Ein wesentli- 
cher Nachteil der Kovarianz besteht darin, dass ihre Größe vom gewählten 
Maßstab abhängig ist: Hätten wir die beiden Merkmale nicht in Prozent, 
sondern in relativen Häufigkeiten gemessen, dann würde die Summe der 
Abweichungsprodukte um den Faktor 10.000 kleiner ausfallen. Diese Maß- 
stabsabhängigkeit erschwert den Vergleich verschiedener Kovarianzen. Der 
Betrag der Kovarianz kann maximal so groß wie das Produkt der Stan- 
dardabweichungen werden: |cov| < Sx- Sy. 


Durch Standardisierung entgeht man diesem Problem. Die Standardisie- 
rung erfolgt, indem man die Kovarianz durch ihr Maximum CoVmar = 52" Su 
dividiert. Auf diese Weise erhält man die Produkt-Moment-Korrelation, 
die auch als Pearsons r bezeichnet wird: 


COU SAP 
ve eu _ no 5 (7.18) 


Sx ` Sy / SAQ; , SAQ, 
n n 


Aus der rechten Gleichung kann man n herauskürzen, so dass man auch 
schreiben kann: 


SAP 


Jaa, SAQ, 


(7.19) 


Der Wertebereich von r liegt zwischen —1 und +1. Bei den Extremwerten 
+1 liegen alle Messwerte auf einer Geraden. Nimmt r den Wert 0 an, dann 
besteht kein linearer Zusammenhang zwischen den beiden Merkmalen. r 
ist ebenso wie die Kovarianz ein symmetrisches Maß. 


Zur Berechnung von r wird auf die Arbeitstabelle zurückgegriffen (Tabel- 
le 7.10, S. 171). Die Summe der Abweichungsprodukte beträgt 1189,13. 
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Die Abweichungsquadrate für den Katholikenanteil (SAQ.) und die Ab- 
weichungsquadrate Stimmenanteil der CDU (SAQ,) werden in den bei- 
den letzten Spalten berechnet. Durch Einsetzen in Gleichung 7.19 erhält 
man: 


SAP 5 1189,07 
SAQ, SAQ, v6136,70 -315,96 


= 0,85. 


Liegen Kovarianz und Standardabweichungen der beiden Merkmale vor, 
dann kann r alternativ mit Gleichung 7.18 ermittelt werden. Die Kovarianz 
zwischen dem Katholikenanteil und dem Stimmenanteil der CDU beträgt 
74,32, die Standardabweichung des Katholikenanteils a, = y SAQ,/n = 
4/6136,7/16 = 19,58 und die Standardabweichung des Stimmenanteils der 


CDU s, = V SAQ, /n = /315,87/16 = 4,44. 


COUgzy 74,32 
= = —————— = 0,85 
525, 19,58 - 4,44 ` 


Das Ergebnis ist natürlich dasselbe. Die Korrelation zwischen dem Anteil 
der katholischen Bevölkerung und dem Wahlergebnis der CDU bei der 
Bundestagswahl 1994 in Rheinland-Pfalz beträgt also 0,85. Da dieser Wert 
sehr nah am Maximum 1 ist, liegt ein sehr starker Zusammenhang vor. 
r? kann — multipliziert mit 100 — prozentual interpretiert werden. r? = 
0,85? = 0,72 heißt, dass 72% der Unterschiede im Stimmenanteil der 
CDU auf den Katholikenanteil zurückgeführt werden können. Wir werden 
im nächsten Kapitel auf diese Interpretation zurückkommen. 


Bei der Interpretation der Stärke des Zusammenhangs zwischen Katholi- 
kenanteil und Stimmenergebnis für die CDU muss berücksichtigt werden, 
dass mit Aggregatdaten häufig stärkere Zusammenhänge gemessen wer- 
den als mit Individualdaten, was auf Gruppierungseffekte zurückgeführt 
werden kann (vgl. Pappi 1977, 90). Bei Individualdaten beobachtet man 
nur selten so starke Zusammenhänge. Ein Beispiel ist der Zusammenhang 
zwischen den Lesekenntnissen (Fließtexte) und den Mathematikkenntnis- 
sen, der in Abbildung 7.6 dargestellt ist. Hier ist r = 0,88. Der enge 
Zusammenhang widerspricht der von vielen Menschen präferierten These 
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Abbildung 7.6: Lese- und Mathematikkenntnisse 
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wonach Fähigkeiten im Umgang mit Texten nur schwach mit Fähigkeiten 
im Umgang mit Zahlen korrelieren. 


In Abbildung 7.7 auf der nächsten Seite sind unterschiedlich stark aus- 
geprägte Zusammenhänge dargestellt. In der obersten Abbildung ist ein 
positiver Zusammenhang der Stärke 0,999 abgebildet, direkt darunter ein 
negativer Zusammenhang gleicher Intensität. In der dritten Abbildung 
korrelieren die Merkmale immer noch recht stark (r—0,65), während in 
der untersten Abbildung kein Zusammenhang zwischen den beiden Merk- 
malen besteht (r=0). r erfasst ausschließlich den linearen Zusammenhang 
zwischen zwei Merkmalen. Auch bei einem nichtlinearen (z. B. u-förmigen) 
Zusammenhang zwischen zwei Merkmalen kann r einen schwachen bzw. 
keinen Zusammenhang ausweisen. 


174 Zusammenhangsmaße 


Abbildung 7.7: Darstellung unterschiedlich hoher Korrelationen 
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Aufgaben zu Zusammenhangsmaßen 


1. Sie möchten den Zusammenhang zwischen der Konfession und der 

Wahlabsicht prüfen. In der nachstehenden Tabelle ist die Wahlabsicht 
für Nicht-Katholiken und Katholiken wiedergegeben. 
Bitte berechnen Sie die Spalten- und Zeilenprozente und interpretieren 
Sie die Aussage der Tabelle! Wie stark ist der Zusammenhang zwischen 
beiden Merkmalen ausgeprägt? Berechnen Sie bitte den Kontingenz- 
koeffizienten C, Cramérs V sowie A (Vorhersage der Wahlabsicht)! 


nicht 
katholisch katholisch | Summe 
CDU/CSU 236 297 533 
SPD 390 205 595 
ANDERE 268 179 447 
Summe 894 681 1575 


Quelle: ALLBUS 1994, westdeutsche Befragte 


2. Prüfen Sie anhand der abgebildeten Tabelle, ob es ein Zusammenhang 
zwischen dem Schulabschluss der Interviewer und dem Schulabschluss 
der Befragten besteht. Berechnen Sie bitte ein angemessenes Zusam- 


menhangsmaß. 
Interviewer 
Haupt- Rea- FHR/ 
Befragter schule schule ABI | Summe 
Hauptschule 389 591 670 1650 
Realschule 162 352 503 1017 
FHR/Abitur 107 227 317 651 
Summe 658 1170 1490 3318 


Quelle: ALLBUS 1994, westdeutsche Befragte 
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3. Aus Erfahrung wissen Sie, dass ältere Menschen nur ungern Män- 
nern die Tür aufmachen. Sie vermuten deshalb, dass in einer Umfra- 
ge die männlichen Interviewer eher junge Menschen befragt haben, 
die weiblichen Interviewer eher ältere Menschen. Nachfolgend ist das 
Durchschnittsalter aller Befragten wiedergegeben, das Durchschnitts- 
alter der von den Interviewern Befragten und das Durchschnittsalter 
der von den Interviewerinnen Befragten. Berechnen Sie auch hier bitte 


ein angemessenes Zusammenhangsmaß. 


Altersdurch- 
schnitt Varianz n 
Alle Befragte 45,8356 286,1653 | 3442 
Von Mann Interviewte 45,6635 282,8915 | 2320 
Von Frau Interviewte 46,1916 293,0079 | 1121 


Quelle: ALLBUS 1994 


4. Sie möchten den Zusammenhang zwischen der Außentemperatur und 
Ihrem Eiskonsum feststellen. Dazu haben Sie an fünf aufeinanderfol- 
genden Tagen die Temperatur sowie die Anzahl der von Ihnen ver- 


zehrten Eis notiert. 


Bitte berechnen Sie die Stärke des Zusammenhangs mit Hilfe des Pear- 
sonschen Korrelationskoeffizienten r und interpretieren Sie das Ergeb- 


nis! Zeichnen Sie die Messwertpaare in ein Diagramm ein! 


Tag 


Temperatur 


Eiskonsum 


(°Celsius) (Anzahl) 


em m 


15 
30 
20 
24 
17 


1 


YANN 


5. Bitte antworten Sie mit richtig oder falsch. 


a) Das Tauschen von Spalten in einer Kreuztabelle hat einen Einfluss 


auf den Wert von y. 


b) Das Tauschen von Spalten in einer Kreuztabelle hat einen Einfluss 


auf den Wert von Cramérs V. 
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8.1 Grundgedanke der Regressionsanalyse 


Mit Hilfe einer Regressionsanalyse untersucht man den Einfluss von einer 
oder mehreren unabhängigen Variablen auf eine einzige abhängige Va- 
riable. Das Verfahren heißt Regressionsanalyse, weil die Ausprägung der 
abhängigen Variable auf die Ausprägungen der unabhängigen Variablen 
zurückgeführt („regrediert“) wird. Wir beschränken uns für diese Einfüh- 
rung auf die lineare Einfachregression. 


Bei einer linearen Regression wird eine Beziehung zwischen unabhängiger 
und abhängiger Variable unterstellt, die sich durch eine Gerade darstellen 
lässt. Eine solche lineare Beziehung könnte heißen: Y ist immer um drei 
Einheiten größer als X. Mathematisch formuliert: y = x +3. Das Modell 
könnte aber auch heißen: Y ist immer um den Faktor 250 größer als X: 
y = 250 - x. Ob die Beziehung zwischen zwei metrischen Merkmalen linear 
ist, lässt sich mit einem Streudiagramm leicht überprüfen. Voraussetzung 
einer linearen Regression ist, dass die beteiligten Merkmale metrisches 
Skalenniveau aufweisen.! Bei einer Einfachregression (bivariate Regressi- 
on) wird der Einfluss einer einzigen unabhängigen Variable auf die abhän- 
gige Variable geschätzt. Bei einer multiplen Regression wird dagegen der 
Einfluss mehrerer Merkmale auf eine abhängige Variable betrachtet. 


Die Formulierung „Regression von Y auf X“ gibt die Erklärungsrichtung 
an. X wird zur Erklärung von Y herangezogen; X ist die unabhängige 
Variable, Y ist die abhängige Variable. In der Sprechweise der linearen 
Regression sagt man dann: „Man führt die Ausprägung des Merkmals Y 
auf die Ausprägung des Merkmals X zurück“, deshalb Regression von Y 


1 Im Modell können auch dichotome unabhängige Merkmale berücksichtigt werden, 
die abhängige Variable muss metrisch sein. 


U. W. Gehring, C. Weins, Grundkurs Statistik für Politologen und Soziologen, 
DOI 10.1007/978-3-531-91879-2_8, 
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auf X. Welche Variable als abhängig und welche als unabhängig betrach- 
tet wird, ist von der Fragestellung abhängig, wie bereits in Kapitel 5.1.2 
erläutert wurde. 


8.2 Das mathematische Modell der linearen Regression 


Das mathematische Modell einer linearen Einfachregression beinhaltet ein 
unabhängiges Merkmal x, ein abhängiges Merkmal y, die Konstante a und 
die Steigung b. 


y=za+tb-x (8.1) 


Der Wert y bestimmt sich aus der Konstanten a zuzüglich des mit dem 
Faktor b multiplizierten Wertes x. Egal, welche Werte für a und b einge- 
setzt werden, das Ergebnis ist immer eine Gerade. Graphisch betrachtet 
ist a der Schnittpunkt der Geraden mit der y-Achse, b ist die Steigung 
der Geraden. Bei einer Steigung von b = 0 verläuft die Gerade paral- 
lel zur x-Achse (y = a+0-x = a) oder es ist die x-Achse selbst (für 
a = 0). Abbildung 8.1 auf der nächsten Seite zeigt verschiedene Gera- 
den für unterschiedliche Werte von a und b. Links oben in Abbildung 8.1 
ist die Funktion y = 3 + x wiedergegeben. Der Schnittpunkt mit der y- 
Achse ist also bei 3, die Steigung ist 1 (1 - x = x). Rechts daneben ist die 
Funktion y = 2,5 - x dargestellt. Der Schnittpunkt mit der y-Achse ist 0, 
die Steigung 2,5. Eine solche Gerade wird auch „Ursprungsgerade“ oder 
„Nullpunktgerade“ genannt, da sie durch den Ursprung bzw. Nullpunkt 
des Koordinatensystems geht. Links unten (y = 7+0,2- x) ist eine Gerade 
mit der sehr geringen Steigung von 0,2 abgebildet. Die Gerade verläuft 
also fast parallel zur x-Achse. Daneben (y = 16 — 1,5: x) ist eine Gerade 
mit der Steigung —1,5 abgebildet, d.h. die Gerade steigt nicht, sondern 
sie fällt mit zunehmendem Wert von z. 


Die Steigung der Geraden lässt sich auch immer als das Verhältnis einer 
Differenz zweier Punkte auf der y-Achse zur Differenz derselben Punkte 
auf der x-Achse angeben. Betrachten wir dazu die Gerade rechts oben 
in Abbildung 8.1. Zwischen zwei Punkten mit den Koordinaten (z1; y1) = 
(2;5) und (x2; y2) = (4; 10) liegt die Differenz auf der y-Achse von y2—yı = 
10 — 5 = 5 und auf der x-Achse von zə — xı = 4 — 2 = 2. Eine andere 
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Bezeichnung für denselben Sachverhalt ist AY = 5 und AX = 2.? Dies 
wird auch als „Steigungsdreieck“ bezeichnet, da der Quotient AY/AX die 
Steigung der Geraden angibt, im Beispiel 5/2 = 2,5. Dies bedeutet, dass 
Y um 2,5 Einheiten ansteigt, wenn A um eine Einheit steigt. 


Abbildung 8.1: Verschiedene lineare Funktionen 
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Dieses lineare Modell wird uns immer wieder begegnen. Als statistisches 
Modell wenden wir es an, wenn wir einen linearen Zusammenhang zwi- 
schen zwei Variablen unterstellen und aufgrund dieses Zusammenhangs 
eine Prognose der abhängigen Variablen abgeben wollen. 


8.3 Bestimmung der Regressionsfunktion 


Zur Illustration greifen wir das Beispiel aus Kapitel 7.6 auf. Wir möch- 
ten bestimmen, wie stark der Katholikenanteil in einem Wahlkreis das 
Wahlergebnis der CDU beeinflusst, und ein Modell berechnen, das es 
uns erlaubt, den Stimmenanteil der CDU auf Grundlage des Katholiken- 
anteils zu schätzen. Dazu führen wir eine lineare Regression des CDU- 
Stimmenanteils auf den Anteil der Katholiken in den rheinland-pfälzischen 


2 A ist das griechische große Delta und wird häufig für die Bezeichnung eines Intervalls 
benutzt, in diesem Fall also für eine Strecke. 
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Bundestagswahlkreisen durch, d.h. wir suchen eine Gerade zur Vorhersage 
des CDU-Stimmenanteils. 


Die allgemeine Funktion dieser Geraden geht aus Gleichung 8.1 hervor, 
wobei der Schnittpunkt der Geraden mit der y-Achse, a, bei der Regressi- 
on als Regressionskonstante, und die Steigung der Regressionsgeraden, b, 
als Regressionskoeffizient oder Regressionsgewicht bezeichnet wird. Wenn 
Gleichung 8.1 solchermaßen als „Schätzmodell“ verwendet wird, schreibt 
man sie als: 


Die Schreibweise %; (sprich: y-Dach) verwendet man, um deutlich zu ma- 
chen, dass es sich bei ĝ; um eine Schätzung aufgrund dieser Gleichung 
handelt und nicht um einen beobachteten Wert. Die beobachteten Werte 
yi weichen ja mehr oder weniger von der Geraden %; ab. Die Abweichungen 
e; werden auch als Residuen bezeichnet. 


ei = Yi — Îi (8.3) 


Die Ermittlung der Abstände erfolgt graphisch gesehen immer entlang der 
Richtung der abhängigen Variablen, da es darum geht, bei der Vorhersage 
dieser Variablen möglichst wenige Fehler zu machen. Bei einer Regression 
von Y auf X werden die Abstände daher entlang der Ausprägung der Y- 
Variablen minimiert. Würde man die Abstände entlang der X-Variablen 
bestimmen, käme dies einer Umkehrung der Richtung der Beziehung zwi- 
schen den Variablen gleich, so dass X nicht mehr die unabhängige, sondern 
die abhängige Variable wäre und Y die unabhängige anstatt der abhängi- 
gen Variablen. Die Geraden, die sich auf diesen beiden Wegen ermitteln 
lassen, sind nicht identisch; deshalb ist genau darauf zu achten, welche 
Variable die abhängige und welche die unabhängige ist (vgl. Clauß und 
Ebner 1989, S. 108-112). 


Da die Vorhersage natürlich möglichst gut sein soll, stellt sich die Frage, 
welche Gerade die Punktewolke (vgl. Abbildung 7.3 auf Seite 166) am 
besten beschreibt. Man könnte eine Gerade „per Augenschein“ durch die 
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Punkte legen. Diese würde die Lage der Punkte vermutlich nur sehr unzu- 
reichend wiedergeben. Naheliegend scheint es, die Gerade zu suchen, bei 
der die Summe der Abweichungen von der Geraden null ist (3 e; = 0). 
Dies ist allerdings kein geeignetes Kriterium, weil es in jeder Punktwolke 
mehrere Geraden gibt, die diese Bedingung erfüllen. Statt dessen mini- 
miert man die Summe der quadrierten Abstände 3 ` e?, weshalb das Ver- 
fahren auch als Kleinste-Quadrate-Methode bezeichnet wird (OLS = 
Ordinary Least Squares), 


n n 


2, e > =ù = 3 iui — a +bx;)” = min! (8.4) 


i=1 i=1 


wobei die ĝ;-Werte die aufgrund der (noch zu bestimmenden) Geraden 
ermittelten Schätzwerte und y; die beobachteten Werte sind. 


Aus der linearen Algebra ist vielleicht noch bekannt, dass man das Mini- 
mum einer Funktion erhält, wenn man die 1. Ableitung null setzt und die 
2. Ableitung bei einem Minimum positiv sein muss (ist die 2. Ableitung 
negativ, erhält man ein Maximum). Da die beiden Parameter a und b ge- 
sucht werden, muss Gleichung 8.4 partiellnach a und b abgeleitet werden 
(vgl. Bortz 2004, S.185f.). Für b erhält man nach einigen Umformungen 
folgende Formel: 


a) Se Sé 
Cf ` Dik l 


i=1 


Zur Berechnung von b benötigen wir die Summe der Abweichungsprodukte 
(SAP) und die Summe der Abweichungsquadrate von xz (SAQ.). 


Aus b und den arithmetischen Mitteln z und y kann dann die Regressi- 
onskonstante a bestimmt werden. Eine Figenschaft der durch die Kleinste- 
Quadrate-Methode berechneten Geraden ist es nämlich, dass sie durch den 
Punkt (£;y) — den Schwerpunkt der Verteilung - verläuft. Außerdem ist 
bekannt, dass a der Schnittpunkt der Geraden mit der y-Achse ist, also 
verläuft die Gerade durch den Punkt (0;a). Damit haben wir zwei Punkte 
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der Geraden und können die Steigung der Geraden b auch als Steigungs- 
dreieck festlegen: 


„u 8 Ha 


= — = = 8.6 
Ar z-0 T en) 

Durch Umformen ergibt sich 
a=y-b-1. (8.7) 


Die Summe der Abweichungsprodukte SAP und die Summe der Abwei- 
chungsquadrate SAQ, haben wir bereits in Kapitel 7.6 (Tabelle 7.10) be- 
rechnet. Durch Einsetzen in die Gleichungen 8.5 und 8.7 ergibt sich 


SAP _ 1189,13 
SAQ, 6136,70 


b= = 0,194 und 


zT 


a = Ņ} — bye: T = 43,96 — 0,194 - 54,99 = 33,29. 


Die Regressionsgerade in unserem Beispiel lautet also: 


i = 33,29 + 0,194 - x. 


Regressionskonstante und Regressionskoeffizient lassen sich anschaulich 
interpretieren: Wenn die unabhängige Variable um eine Einheit ansteigt, 
ändert sich der Schätzwert der abhängigen Variable um b Einheiten. Für 
einen Anstieg des Katholikenanteils um einen Prozentpunkt prognostizie- 
ren wir einen Anstieg des CDU-Stimmenanteils um 0,194 Prozentpunkte. 
Entsprechend sagen wir einen Anstieg des CDU-Stimmenanteils von 1,94 
Prozentpunkten bei einem Anstieg des Katholikenanteils um 10 Prozent- 
punkte vorher. Ist b = 0, dann übt die unabhängige Variable keinen Ein- 
fluss auf die abhängige Variable aus oder der Einfluss ist nichtlinear. Die 
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Abbildung 8.2: Regression des CDU-Stimmenanteils auf den 
Katholikenanteil 


HES 


CDU-Stimmenanteil 


Katholikenanteil 


Regressionskonstante ist der Wert, den wir für x; = 0 prognostizieren. Bei 
einem Katholikenanteil von 0% prognostizieren wir einen Stimmenanteil 
von 33,29% für die CDU. In Abbildung 8.2 ist die ermittelte Regressions- 
gerade eingezeichnet. 


Die Gleichung ĝ; = 33,29+ 0,194: x; kann nun zur Prognose („Schätzung“) 
der Y-Variablen aufgrund des Wertes der X-Variablen verwendet werden. 
Auf unser Beispiel angewendet, kann man jetzt also zu einem beliebigen 
Katholikenanteil in einem Wahlkreis x; den Stimmenanteil der CDU 9; 
„schätzen“. 


So würde man bei einem Katholikenanteil von 70,78% aufgrund der Re- 
gressionsgleichung einen Stimmenanteil der CDU von % = 33,29 + 0,194 - 
70,78 = 47,02% prognostizieren. Im Wahlkreis Cochem, wo genau die- 
ser Katholikenanteil vorkommt, beträgt der tatsächliche Stimmenanteil 
der CDU aber 50,94%, liegt also über dem geschätzten Wert. Differen- 
zen zwischen %;- und y;-Werten kommen vor, weil nicht alle beobachteten 
Werte exakt auf einer Geraden liegen. 
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8.4 Qualität der Regression 


Die Regressionsgerade repräsentiert die beobachteten Werte umso bes- 
ser, je weniger die geschätzten Werte ĝ; von den beobachteten Werten yi 
abweichen. Ein Maß für die Annäherung der Geraden an die beobachte- 
ten Werte und damit die Prognosequalität der Regressionsgleichung ist der 
Determinationskoeffizient R?, ein dem Korrelationskoeffizienten r sehr eng 
verwandtes Maß. Andere Bezeichnungen für R? sind „Bestimmtheitsmaß“ 
oder ‚Varianzaufklärung“. Letztere Bezeichnung weist auf die R? innewoh- 
nende Logik hin. R? gibt an, welcher Anteil der Varianz der abhängigen 
Variablen durch die unabhängige Variable erklärt wird. 


Zur Erklärung von R? sollte man sich noch einmal die Logik eines PRE- 
Maßes (vgl. Kapitel 7.3.2 und 7.5) vergegenwärtigen. Bei PRE-Maßen 
versucht man zunächst, die abhängige Variable ohne Hinzuziehung ei- 
ner unabhängigen Variablen zu prognostizieren. Im Fall einer metrischen 
Variablen ist der beste Schätzwert deren arithmetisches Mittel y (=ur- 
sprüngliche Prognose), im Beispiel also das durchschnittliche Wahlergeb- 
nis der CDU in den rheinland-pfälzischen Bundestagswahlkreisen, nämlich 
43,96%. Die Differenzen (y; — y) geben an, wie weit wir mit dieser Pro- 
gnose von den beobachteten Werten entfernt sind. Anschließend wird die 
abhängige Variable auf Basis einer unabhängigen Variable vorhergesagt. 
Der beste Schätzwert ist nun der durch die ermittelte Regressionsgleichung 
prognostizierte Wert ĝ; für eine konkrete Ausprägung der unabhängigen 
Variable x; (=neue Prognose). Die Abweichungen y;—ĝ; geben an, wie weit 
die Regressionsgerade von den beobachteten Werten entfernt ist. Das Gü- 
tekriterium der Prognose bestimmt sich nun daraus, in welchem Umfang 
die Fehler auf Basis der ursprünglichen Prognose durch die neue Prognose 
vermindert werden. 


Diese Herleitung von R? wird anhand einer Beobachtung in Abbildung 8.3 
auf der nächsten Seite grafisch veranschaulicht. x; ist der Wert der unab- 
hängigen Variable (Katholikenanteil). Zu ihm gehört der beobachtete Wert 
der abhängigen Variable y; (Stimmenanteil der CDU). Der Wert auf der 
Parallelen zur x-Achse ist der Mittelwert der abhängigen Variablen % - 
im Beispiel der durchschnittliche Anteil der CDU. Also der Wert, den wir 
ohne Kenntnis einer unabhängigen Variablen vorhersagen. Der Wert auf 
der berechneten Geraden ĝ; = a +b- x; ist die Schätzung der abhängigen 
Variablen ĝ; durch die Regressionsgerade. 
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Abbildung 8.3: Varianzzerlegung im linearen Regressionsmodell 


Die Abweichung des beobachteten Wertes vom Mittelwert (y; — 9) soll er- 
klärt werden. Sie lässt sich aufteilen in die Abweichung des beobachteten 
Wertes vom Schätzwert der Regressionsgeraden (y; — %;) und die Abwei- 
chung des Schätzwertes der Regressionsgeraden zum Mittelwert (ĝ; — 9). 
Die Differenz ĝ; — y kann mit Hilfe der Regression von Y auf X erklärt 
werden. Die Differenz y; — ĝi kann nicht auf X zurückgeführt werden, sie 
bleibt unerklärt. 


Yi— y = Yi — Üi + däi (8.8) 
in 
zu erklärende Abweichung nicht erklärte Abweichung erklärte Abweichung 


Im Wahlkreis Cochem liegen wir mit der Prognose des durchschnittlichen 
CDU-Anteils 5 von 43,96% um 6,98 Prozentpunkte daneben, denn der 
tatsächliche Stimmenanteil der CDU in Cochem y; beträgt 50,94%. Die 
zu erklärende Abweichung beträgt also y; — y = 50,94 — 43,96 = 6,98 Pro- 
zentpunkte. Zur Erklärung des Stimmenanteils der CDU ziehen wir den 
Katholikenanteil im Wahlkreis heran. Auf Basis der berechneten Regres- 
sionsgeraden (ĝ; = 33,29 +0,194- x;) erwarten wir für einen Wahlkreis mit 
einem Katholikenanteil von 70,78% (Wert für Cochem), dass 47,02% der 
Wähler für die CDU stimmen. Mit Hilfe des Katholikenanteils wird die 
Schätzung also besser, sie liegt näher am tatsächlichen Stimmenergebnis 
der CDU. Durch die Regression werden Me — y = 47,02 — 43,96 = 3,06 
Prozentpunkte des überdurchschnittlichen Stimmenanteils der CDU. Der 
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Katholikenanteil erklärt den Wahlerfolg der CDU in Cochem nicht voll- 
ständig, aber einen Teil davon. Die weiterhin nicht erklärte Abweichung 
beträgt y; — ĝi = 50,94 — 47,02 = 3,92 Prozentpunkte, denn auch bei 
Kenntnis des Katholikenanteils prognostizieren wir 3,92 Prozentpunkte 
zu wenig. 


Diese Abweichungen müssen nun für alle 16 Wahlkreise berechnet werden. 
Bevor sie summiert werden, müssen sie noch quadriert werden, denn sonst 
heben sich positive und negative Abweichungen auf, so dass die gesamte 
Abweichung für alle Wahlkreise 0 betragen würde. 


n 
Yu- = u-W + Da-M (8.9) 
i=1 
Gesamt-SAQ,, Unerklärte-SAQ,, Erklärte-SAQ,, 


Die zu erklärende Gesamt-SAQ, setzt sich also aus einer durch die Re- 
gression unerklärten SAQ, und einer durch die Regression erklärten SAQ, 
zusammen. Das Verhältnis der erklärten SAQ, zur Gesamt-SAQ,, ist das 
Maß für die Güte der Regression, R°. 


2 
9 _ Erklärte-SAQ, 


5 (yi — p)? — Gesamt-SAQ, 


(8.10) 


Zur Verdeutlichung der PRE-Maß-Logik kann man auch schreiben: 


_ Fehler, — Fehlers 


Fehler; 
__ Gesamt-SAQ, — Unerklärte-SAQ, 


Gesamt-SAQ, 


R 


(8.11) 
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Die Gesamt-SAQ, in Gleichung 8.11 entspricht den Fehlern bei der ur- 
sprünglichen Prognose (Fehler), die Unerklärte-SAQ, den Fehlern auf 
Basis der neuen Prognose (Fehlers). Die Differenz gibt die Verringerung 
der Fehler durch die Hinzuziehung der unabhängigen Variable an. Die 
Gleichungen 8.10 und 8.11 sind natürlich identisch, da Gesamt-SAQ,, — 
Unerklärte-SAQ, = Erklärte-SAQ,. 


R? hat einen Wertebereich von 0 bis 1. R? nimmt den Wert 0 an, wenn die 
unabhängige Variable X die Vorhersage nicht verbessert. In diesem Fall 
ist auch b = 0. Je größer R? ist, desto größer ist der Anteil der erklär- 
ten Variation der abhängigen Variablen. Bei R? = 1 liegen alle Messwerte 
auf der Regressionsgeraden. Die Unterschiede in der abhängigen Varia- 
ble lassen sich dann vollständig (zu 100%) auf die unabhängige Variable 
zurückführen. 


Um die Berechnung von R? in unserem Beispiel durchzuführen, erweitert 
man Tabelle 7.10 ($.171) um die Spalten zur Berechnung von ĝi, yi — Îi, 
(v9), 4-9 und (sl. Die entsprechende Tabelle 8.1 ist auf Seite 189 
dargestellt. 


Durch Einsetzen der x;-Werte in die Regressionsgleichung lassen sich die 
Ü-Werte berechnen. Die Summe der quadrierten Abweichungen X` (y;—ĝ;)? 
ist die unerklärte SAQ von Y, die Summe der quadrierten Abweichungen 
(9 - y)? ist die erklärte SAQ von Y. Die unerklärte SAQ beträgt 85,49, 
die erklärte SAQ 231,05 und die gesamte SAQ 315,87.° R? lässt sich nach 
Gleichung 8.10 wie folgt berechnen: 


br, E 
MIN erklärte SAQ, 231,05 


(u)? — Gesamt-SAQ, 315,87 


= 0,73; 


bzw. alternativ nach Gleichung 8.11: 


3 Aufgrund von Rundungsungenauigkeiten entspricht die Summe aus erklärter und 
unerklärter SAQ, (85,49 + 231,05 = 316,53) nicht exakt der Gesamt-SAQ, 
(315,87). SPSS ermittelt eine unerklärte SAQ, von 85,528, eine erklärte SAQ 
von 230,341 und eine Gesamt-SAQ,, von 315, 869. 
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A2 EK) 
zu rm) 315,87 — 85,49 


n = 0, 73 . 
3 (e — OT 
i=1 


R? = 0,73 ist ein sehr hoher Wert, der in der Praxis nur selten erreicht 
wird. Mit 100 multipliziert, lässt er sich als Prozentwert interpretieren: 
Die Varianzaufklärung beträgt 73%. Oder anders ausgedrückt: 73% der 
Unterschiede im Stimmenanteil der CDU lassen sich auf die Höhe des Ka- 
tholikenanteils im Wahlkreis zurückführen. Und als PRE-Maß: Der Fehler 
bei Prognose des Stimmenanteils der CDU wird durch Kenntnis des Ka- 
tholikenanteils um 73% reduziert. 


Aus R? lässt sich im bivariaten Fall der Korrelationskoeffizient r bestim- 
men, denn 


r=vR2. (8.12) 


Im Beispiel würde der auf diese Weise ermittelte Wert r = 0,85 betra- 
gen. R? ist allerdings nur bei einer Regression mit einer unabhängigen 
Variablen identisch mit dem quadrierten Korrelationskoeffizienten r? aus 
Kapitel 7.6. 


Nichtlineare Beziehungen 


Nimmt R? sehr niedrige Werte an, so kann dies unterschiedliche Ursa- 
chen haben. Eine Möglichkeit besteht darin, dass die unabhängige Va- 
riable X tatsächlich keinen Einfluss auf Y ausübt, wie in Abbildung 7.7 
auf Seite 174 (r = 0). Es könnte aber auch sein, dass ein nichtlinearer 
Zusammenhang besteht. In Abbildung 8.4 auf Seite 190 sind verschiede- 
ne nichtlineare Beziehungen dargestellt. Bei nichtlinearen Beziehungen ist 
der Anstieg in Y von der Position auf der X-Achse abhängig. 
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Abbildung 8.4: Nichtlineare Zusammenhänge 


1) 
ID) 


Nichtlineare Beziehungen können im Rahmen des linearen Regressionsmo- 
dells berücksichtigt werden, wenn durch eine geeignete Veränderung der 
unabhängigen oder abhängigen Variablen eine lineare Beziehung zwischen 
den transformierten Variablen hergestellt werden kann. Ein Beispiel: In 
der Ökonomie wird ein exponentieller Anstieg der Lohnhöhe mit zuneh- 
mender Zahl der Schuljahre angenommen: Lohn = e“+»Schuljahre Gen). 
die rechte, untere Grafik in Abbildung 8.4). Durch Logarithmieren erhält 
man einen linearen Zusammenhang zwischen dem logarithmierten Lohn 


und der Zahl der Schuljahre: In(Lohn) = a+b-Schuljahre. Regressions- 
konstante und Regressionskoeffizient lassen sich dann mit einer linearen 
Regression schätzen. Beachtet werden muss allerdings, dass bei einem An- 
stieg der unabhängigen Variablen um eine Einheit nun der Logarithmus 
der abhängigen Variablen — In y — um b Einheiten (linear) ansteigt (siehe 
Wooldridge 2006, 46 f.). 


Korrelation und Kausaliıtät 


Abschließend ein Hinweis zur Interpretation: Wir interpretieren die Ergeb- 
nisse von Regressionsgleichungen häufig kausal. X wird dann als ursäch- 
lich für Y angesehen. Wir haben in Kapitel 2.3 jedoch gesehen, dass der 
Nachweis von Kausalität bei nicht experimentellen Daten schwierig ist und 
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den Ausschluss alternativer Erklärungen über eine Drittvariablenkontrolle 
erfordert. Die Drittvariablenkontrolle erfolgt im Rahmen der Regressions- 
analyse, indem die als relevant erachteten Drittvariablen als weitere unab- 
hängige Variablen im Regressionsmodell aufgenommen werden. Mit einer 
multiplen Regression kann der Einfluss mehrerer unabhängiger Merkma- 
le auf ein abhängiges Merkmal geschätzt werden. Die Interpretation der 
Koeffizienten erfolgt analog zur bivariaten Regression. 


Regressionsanalysen sind auch dann sinnvoll, wenn wir ausschließlich an 
einer Prognose des abhängigen Merkmals interessiert sind. In Kapitel 7.6 
wurde für die Lese- und Mathematikkenntnisse eine Produkt-Moment- 
Korrelation von r = 0,88 festgestellt. Die Regressionsgleichung für den in 
Abbildung 7.6 (S. 173) dargestellten Zusammenhang (Daten: TALS 1994, 
n=2062) wurde mit einem Statistik-Programm berechnet: 


Mathe = 61,6 + 0,84: Lese (8.13) 


Für einen Anstieg der Lesekompetenz um einen Punkt prognostizieren wir 
einen Anstieg der Mathematikkompetenz um 0,8 Punkte. R? beträgt 77%. 
Die Lesekompetenz ist damit sehr gut zur Prognose der Mathematikkom- 
petenz geeignet. Kausal würden wir diesen Effekt der Lesekompetenz wohl 
nicht interpretieren. Ursächlich für die Mathematik- und die Lesekennt- 
nisse sind andere Faktoren wie die Intelligenz oder die formale Bildung. 


Die lineare Regression setzt metrische abhängige Merkmale voraus. In den 
Sozialwissenschaften haben wir jedoch häufig keine metrischen Merkma- 
le. Etwa dann, wenn wir die Wahlabsicht von Befragten (nominal), die 
Erwerbstätigkeit von Frauen (dichotom) oder die Stärke des politischen 
Interesses (ordinal) erklären möchten. Auch für kategoriale Daten existie- 
ren Regressionsmodelle. Eine leicht verständliche Einführung findet sich 


bei Andreß et al. (1997, Kapitel 5). 
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Aufgaben zu Linearer Regression 


1. Welche Fragestellungen können mit Hilfe der Regression beantwortet 
werden? (Bitte beantworten Sie die Frage in maximal 2 Sätzen). 

2. Sie möchten wissen, welchen Einfluss der Anteil der Katholiken auf 

das Wahlergebnis der SPD bei der Bundestagswahl 1994 in Rheinland- 
Pfalz hatte. In der Tabelle sind für jeden rheinland-pfälzischen Wahl- 
kreis der Anteil der Katholiken x; und das Wahlergebnis der SPD y; 
wiedergegeben. 
Bitte berechnen Sie die Regressionsgerade! Ist die ermittelte Regres- 
sionsfunktion eine gute Schätzung des Wahlergebnisses der SPD? Be- 
rechnen Sie zur Beantwortung dieser Frage das Bestimmtheitsmaß R?! 
Interpretieren Sie alle errechneten Maße inhaltlich! 


Wahlkreis Ti Yi 

Neuwied 55,55 | 40,96 
Ahrweiler 81,99 | 34,17 
Koblenz 73,14 | 37,93 
Cochem 70,78 | 32,84 
Kreuznach 32,60 | 44,01 
Bitburg 91,40 | 32,72 
Trier 87,97 | 39,60 
Montabaur 50,76 | 42,21 
Mainz 51,36 | 36,55 
Worms 32,81 | 42,42 
Frankenthal 31,98 | 43,16 
Ludwigshafen 38,01 | 40,83 
Neustadt-Speyer | 45,61 | 34,59 
Kaiserslautern 34,89 | 46,70 
Pirmasens 45,98 | 41,66 
Südpfalz 55,07 | 36,93 


3. Berechnen Sie für das obige Beispiel den Korrelationskoeffizienten aus 
den einzelnen Messwerten und aus dem Bestimmtheitsmaß! 
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Um Angaben über die Struktur der Bevölkerung zu erhalten, werden von 
amtlicher Seite regelmäßig Volkszählungen durchgeführt. Die letzte Volks- 
zählung ist schon eine Weile her. Sie fand in der Bundesrepublik im Jahr 
1987 und in der DDR im Jahr 1981 statt. Erhebt man die Daten wie im 
Falle von Volkszählungen bei allen interessierenden Untersuchungseinhei- 
ten — hier also bei der gesamten Bevölkerung eines Staates —, dann spricht 
man von einer Vollerhebung. Eine bevölkerungsweite Erhebung wie die 
Volkszählung ermöglicht unter anderem fein gegliederte regionale Analy- 
sen. Die Kehrseite der Medaille ist allerdings, dass bevölkerungsweite Vol- 
lerhebungen sehr kosten- und zeitintensiv sind. Nach Angaben von Diek- 
mann (2008, 375) kostete die Volkszählung 1987 mehr als 1 Milliarde DM. 
Die Ausgaben für eine neue Volkszählung in Deutschland werden noch 
weitaus höher veranschlagt. Das Statistische Bundesamt schätzt die Kos- 
ten auf ca. 1,45 Mrd. Euro, das Deutsche Institut für Wirtschaftsforschung 
auf ca. 1 Mrd. Euro (Bundesministerium des Innern 2006; Wagner 2006). 
Aus Kostengründen wird der nächste Zensus im Jahr 2011 daher keine 
traditionelle Volkszählung mehr sein. Stattdessen wird ein registergestütz- 
ter Zensus durchgeführt (Krügener 2006), dessen Kosten das Statistische 
Bundesamt mit ca. 450 Millionen Euro beziffert. Registergestützt heißt, 
dass Daten aus den Verwaltungsregistern genutzt werden — insbesondere 
aus den Melderegistern und den Registern der Bundesagentur für Arbeit. 
Die Register enthalten aber nicht alle interessierenden Merkmale. Angaben 
zur Bildung und Ausbildung sind in den Verwaltungsregistern beispiels- 
weise nicht enthalten. Zusätzlich werden deshalb Umfragen bei einem Teil 
der Bürger und Bürgerinnen durchgeführt. Der Preis für den Verzicht auf 
eine traditionelle Vollerhebung besteht darin, dass man die Verteilung be- 
stimmter Merkmale in der Grundgesamtheit nicht mehr kennt, sondern 
schätzen muss. 


Zur Beantwortung wissenschaftlicher Fragestellungen sind bevölkerungs- 
weite Vollerhebungen nicht nur aus Kostengründen ungeeignet. Würde 
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man alle wahlberechtigten Bundesbürger — also ca. 60 Millionen Men- 
schen — vor einer Wahl nach ihrer Wahlabsicht befragen, dann lägen die 
Ergebnisse sicher nicht mehr vor der Wahl vor. Aus diesem Grund befragt 
man nicht alle Wahlberechtigten, sondern trifft eine Auswahl. Auswahlen 
werden auch als Stichproben oder Samples bezeichnet (vgl. zu Auswahl- 
verfahren Scheaffer et al. 1996; Levy und Lemeshow 1991; Böltken 1976). 
In der nachfolgenden Tabelle ist die Wahlabsicht von 1.250 Befragten vor 
der Bundestagswahl 1994 und das tatsächliche Endergebnis wiedergege- 
ben. Obwohl lediglich ein kleiner Teil der Wähler befragt wurde, weicht 
das Ergebnis der Umfrage vom tatsächlichen Wahlergebnis nicht sehr weit 
ab. Das ist aber nicht immer so. Bei der Bundestagswahl 2005 wurde der 
Stimmenanteil von CDU/CSU von nahezu allen Umfrageinstituten deut- 
lich zu hoch ausgewiesen. 


Tabelle 9.1: Umfrageergebnis und tatsächliches Ergebnis der BTW 1994 


Forschungs- Amtliches 

Partei gruppe Wahlen Ergebnis 
CDU/CSU 42,5% 41,5% 
SPD 35,5% 36,4% 
FDP 7,0% 6,9% 
Bündnis 90/Grüne 8,0% 73% 
PDS 3,5% 4,4% 
REP 2,0% 1,9% 

1.250 47.104.576 

(Befragte) (Wähler) 


Es ist kein Zufall, dass sich die Methoden der Stichprobenziehung paral- 
lel zur Wahlforschung entwickelten. Normalerweise können die Ergebnisse 
einer Stichprobe nicht an den Ergebnissen für die Grundgesamtheit va- 
lidiert werden. Bei Wahlen ist das anders. Hier gibt das Wahlergebnis 
die Stimmenanteile für die einzelnen Parteien in der Grundgesamtheit 
an. Waren die Umfrageergebnisse weit vom tatsächlichen Wahlergebnis 
entfernt, so lag dies häufig an verzerrten Stichproben. „Fehlprognosen“ 
wurden zum Anlass genommen, die Stichprobenziehung und die Datener- 
hebung zu überdenken. 


Die entscheidende Frage ist, wie man auf der Basis von Stichproben Aus- 
sagen über die Grundgesamtheit treffen kann. Diese Frage kann mit Hilfe 
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der schließenden Statistik bzw. Inferenzstatistik beantwortet werden. Im 
Gegensatz zur bisher behandelten deskriptiven Statistik, die sich der Be- 
schreibung vorliegender Daten zufriedengibt, werden mit der schließenden 
Statistik Stichprobenergebnisse verallgemeinert. 


Ob Aussagen über die Grundgesamtheit zulässig sind, hängt wesentlich 
davon ab, auf welche Weise die Einheiten der Stichprobe ausgewählt wer- 
den. Prinzipiell unterscheidet man zwischen zufallsgesteuerten und nicht- 
zufallsgesteuerten Auswahlverfahren. Schlüsse von der Stichprobe auf die 
Grundgesamtheit — im Beispiel also von 1.250 Befragten auf 47 Millionen 
Wähler - sind nur bei Zufallsstichproben theoretisch begründbar. Warum 
dies so ist und welche Möglichkeiten es gibt, Stichprobenresultate zu ver- 
allgemeinern, damit beschäftigen sich alle folgenden Kapitel. 


9.1 Grundlagen 


Bevor die verschiedenen Formen der Stichprobenziehung erläutert werden 
können, sollten einige Begriffe geklärt sein. 


9.1.1 Grundgesamtheit, Auswahlgesamtheit und Stichprobe 


Unter Grundgesamtheit oder Population werden alle Einheiten ver- 
standen, auf die sich die Untersuchungshypothesen beziehen, wobei die 
Einheiten real existieren müssen (vgl. zur Annahme fiktiver Grundgesamt- 
heiten die Kritik von Rohwer und Pötter 2002). Interessiert man sich für 
das Wahlverhalten der Deutschen bei einer Bundestagswahl, dann stellen 
alle bei dieser Wahl wahlberechtigten Bundesbürger die Grundgesamtheit 
dar. Soll die Wahlkampfberichterstattung der auflagenstärksten überre- 
gionalen Tageszeitungen (ohne Boulevardblätter) bei der Bundestagswahl 
2009 inhaltsanalytisch ausgewertet werden, dann zählen alle wahlkampf- 
bezogenen Artikel der „Frankfurter Allgemeinen Zeitung“, der „Frank- 
furter Rundschau“, der „Süddeutschen Zeitung“, der „tageszeitung“ und 
der „Welt“ zur Grundgesamtheit. Sollen die Studienwünsche rheinland- 
pfälzischer Abiturienten untersucht werden, dann gehören alle Schüler des 
13. Schuljahres in Rheinland-Pfalz zur Grundgesamtheit. Kennwerte der 
Grundgesamtheit (bzw. genauer: einer theoretischen Verteilung) werden 
als Parameter bezeichnet. Zur Darstellung werden griechische Buchstaben 
verwandt — z.B. kennzeichnet p (sprich: mü) das arithmetische Mittel in 
der Grundgesamtheit und o? (sprich: sigma) die Varianz. 
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Von der Grundgesamtheit ist die Auswahlgesamtheit zu unterscheiden. 
Sie besteht aus allen Einheiten, aus denen die Stichprobe tatsächlich aus- 
gewählt wird. Zur Untersuchung der Studienwünsche rheinland-pfälzischer 
Abiturienten könnten wir beispielsweise alle Gymnasien anschreiben und 
deren Direktoren bitten, uns eine Liste aller Schüler des 13. Schuljah- 
res zu schicken. Die Auswahlgesamtheit besteht dann aus den auf diesen 
Listen verzeichneten Schülern, die Grundgesamtheit aus allen rheinland- 
pfälzischen Schülern. Die Auswahlgesamtheit und nicht die Grundgesamt- 
heit ist demnach die Grundlage der Stichprobenziehung. 


Die Auswahlgesamtheit kann sich von der Grundgesamtheit durch un- 
dercoverage (Untererfassung) und overcoverage (Übererfassung) un- 
terscheiden. Undercoverage liegt dann vor, wenn Einheiten der Grundge- 
samtheit nicht in der Auswahlgesamtheit vorhanden sind; overcoverage, 
wenn Einheiten der Auswahlgesamtheit nicht zur Grundgesamtheit gehö- 
ren. Fehlen Schüler des 13. Jahrgangs auf unserer Liste, z. B. weil diese erst 
nach Erstellung der Liste aus einem anderen Bundesland zugezogen sind, 
dann liegt undercoverage vor. Enthält unsere Liste andererseits Schüler, 
die zwischenzeitlich das Gymnasium verlassen haben, besteht overcovera- 
ge. Die Differenz zwischen Auswahl- und Grundgesamtheit wäre in diesen 
beiden Fällen durch eine veraltete Liste verursacht. 


Eine Stichprobe ist eine Teilmenge von Untersuchungseinheiten, die nach 
bestimmten Regeln, dem Auswahlplan, ausgezählt wurde. Synonym ver- 
wendet man auch die Begriffe Auswahl oder Sample. Wir könnten z. B. bei 
der Auswahl von Schülern in Rheinland-Pfalz so vorgehen, dass wir erst 
eine Schülerliste erstellen und dann aus dieser Schülerliste jeden zehnten 
Schüler auswählen. Kennwerte von Stichproben werden häufig als Statis- 
tiken (sample statistic) bezeichnet. Wir haben schon diverse Statistiken 
für Stichproben kennen gelernt, z.B. X für das arithmetische Mittel oder 
s? für die Varianz. 


Der Zusammenhang zwischen Grund- und Auswahlgesamtheit ist in der 
folgenden Abbildung verdeutlicht: Die Grundgesamtheit wird durch die 
helle Ellipse dargestellt, die Auswahlgesamtheit durch die darüberliegen- 
de dunkle Ellipse. Die hellen Kreise sind zwei verschiedene Stichproben A 
und B. Under- und overcoverage sind die beiden sichelförmigen Überlap- 
pungen rechts und links. Wie man sieht, enthält Stichprobe A Einheiten, 
die nicht zur Grundgesamtheit gehören (was über die gestrichelte Linie 
hinausgeht). Dagegen sind in Stichprobe B nur Fälle verzeichnet, die so- 
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wohl zur Auswahl- als auch zur Grundgesamtheit gehören. Da jede Stich- 
probe auf der Auswahlgesamtheit beruht, können Fälle, die zwar in der 
Grundgesamtheit, nicht aber in der Auswahlgesamtheit vorhanden sind 
(undercoverage), nie in eine Stichprobe gelangen. Je weniger Auswahl- 
und Grundgesamtheit voneinander abweichen, umso besser die Grundlage 
der Stichprobenziehung. Sprachlich vernachlässigt man den Unterschied 
zwischen Auswahl- und Grundgesamtheit häufig, auch wenn klar ist, dass 
die Auswahlgesamtheit und nicht die Grundgesamtheit der Stichproben- 
ziehung zugrunde liegt. 


Abbildung 9.1: Auswahlgesamtheit und Grundgesamtheit 


Overcoverage Undercoverage 


Sample B 


S Sample A 


Grundgesamtheit 


Auswahlgesamtheit 


Bei der Stichprobenziehung muss zwischen der Auswahleinheit (Erhe- 
bungseinheit) und der Untersuchungseinheit unterschieden werden. Die 
Auswahleinheit ist die Einheit, die der Stichprobenziehung zugrunde liegt; 
die Untersuchungseinheit ist die Einheit, die Merkmalsträger ist. Im obi- 
gen Beispiel waren Auswahl- und Untersuchungseinheit identisch, näm- 
lich Schüler. Genauso gut könnten wir auch Schulen auswählen und jeden 
Schüler der ausgewählten Schulen befragen. Die Auswahleinheit sind nun 
Schulen, die Untersuchungseinheit sind weiterhin die Schüler; schließlich 
interessieren wir uns für deren Studienwünsche. 
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9.1.2 Befragungsverweigerung 


Angestrebt wird, die Daten für die gesamte Stichprobe zu erheben. Bei 
den meisten Befragungen treten jedoch in erheblichem Umfang Ausfäl- 
le auf (vgl. Schnell et al. 2008, 289). Gelingt es nicht, eine Person zu 
befragen, dann sprechen wir von emphUnit-Nonresponse. Die Nichtbeant- 
wortung einzelner Fragen (Item-Nonresponse) wurde bereits in Kapitel 4 
angesprochen. 


Unproblematisch sind Ausfälle, die keine Auswirkung auf die Qualität 
der Stichprobe haben. Solche Ausfälle werden als stichprobenneutral bzw. 
zufällig bezeichnet. Das Wort zufällig deutet an, dass die realisierte Stich- 
probe dann als Zufallsstichprobe aus der angestrebten Stichprobe angese- 
hen wird. Stichprobenneutralität wird beispielsweise unterstellt, wenn eine 
Zielperson nicht befragt werden konnte, weil deren Adresse nicht richtig 
notiert wurde. Zu einer Minderung der Stichprobenqualität führen dage- 
gen nicht stichprobenneutrale bzw. systematische Ausfälle (Non-Response 
Error). Diese werden durch das Untersuchungsthema oder das Untersu- 
chungsdesign verursacht. Ein systematischer Ausfall läge z.B. dann vor, 
wenn im Haushalt nie jemand angetroffen wird, weil alle Haushaltsangehö- 
rigen berufstätig sind, oder Berufstätige häufiger aus Zeitgründen das In- 
terview verweigern. Ein systematischer Ausfall bestände auch dann, wenn 
vor allem Befragte mit rechtsextremen Einstellungen eine Befragung zum 
Thema Rechtsextremismus ablehnen. In beiden Fällen wären in der Stich- 
probe bestimmte Gruppen — Berufstätige bzw. Befragte mit rechtsextre- 
men politischen Einstellungen — im Vergleich zur Grund- bzw. Auswahl- 
gesamtheit unterrepräsentiert. Die Stichproben würden systematisch von 
der Grundgesamtheit abweichen. 


Ob ein Ausfall stichprobenneutral ist oder nicht, lässt sich nur schwer 
feststellen. Bei mündlichen und telefonischen Befragungen können die In- 
terviewer nachfragen, warum eine Person die Teilnahme an der Untersu- 
chung ablehnt. In Tabelle 9.2 auf der gegenüberliegenden Seite sind die 
Ausfälle von Befragungspersonen beim ALLBUS 2006 wiedergegeben. Wie 
man sieht, gibt es nur sehr wenige stichprobenneutrale Ausfälle, zu denen 
Nicht-Befragung aufgrund falscher Adressen, Wohnungswechsel und Tod 
gezählt werden. Personen, die nicht in Privathaushalten wohnen, zählen 
qua Definition nicht zur Grundgesamtheit. Beim ALLBUS 2006 belief sich 
der Anteil stichprobenneutraler Ausfälle an der Bruttostichprobe auf 11% 


Grundlagen 199 


in West- und 9,2% Ostdeutschland. Die systematischen Ausfälle resultie- 
ren zum größten Teil aus Befragungsverweigerungen. Diese werden zu den 
systematischen Ausfällen gezählt, weil man davon ausgeht, dass sich die 
Personen, die eine Teilnahme verweigern, von den teilnahmebereiten Per- 
sonen unterscheiden (vgl. Diekmann 2008, 422). Ein systematischer Aus- 
fall liegt natürlich auch dann vor, wenn eine Person nicht in der Lage ist, 
ein Interview in deutscher Sprache zu führen. Diese Ausfälle führen zu ei- 
ner Unterrepräsentation von Migranten in der Stichprobe. Migranten, die 
Fragen in deutscher Sprache beantworten können, unterscheiden sich sehr 
wahrscheinlich auch in anderen Merkmalen von Migranten, die dazu nicht 
in der Lage sind (z. B. im Bildungsniveau). 


Tabelle 9.2: Ausschöpfung beim ALLBUS 2006 


West Ost 

n 0 D 0 
Ursprüngliche Bruttostichprobe 5772 100 | 2652 100 
Zusätzlich eingesetzte Adressen als 
Ersatz für stichprobenneutrale Ausfälle + 647 | 11,2 232 8,7 
Bruttostichprobe = | 6419 100 | 2884 100 
Stichprobenneutrale Ausfälle insgesamt _ 704 | 11,0 264 9,2 
— Anschreiben nicht zustellbar 132 2,1 55 1,9 
— Adresse falsch, existiert nicht (mehr) 122 1,9 41 1,4 
— ZP verstorben 40 0,6 15 0,5 
— ZP verzogen 343 5,3 133 4,6 
— ZP lebt nicht in Privathaushalt 67 1,0 20 0,7 
Bereinigte Bruttostichprobe = | 5715 100 | 2620 100 
Systematische Ausfälle insgesamt — | 3416 | 59,8 | 1498 | 57,2 
— Im Haushalt niemand angetroffen 238 4,2 93 3,5 
— ZP nicht angetroffen 137 2,4 63 2,4 
— ZP nicht befragungsfähig 167 2,9 86 3,3 
— ZP verweigert tel. bei Infratest Projektleitung 28 0,5 26 1,0 
— ZP aus Zeitgründen nicht zum Interview bereit 261 4,6 107 4,3 
— ZP generell nicht zum Interview bereit 2366 | 41,4 | 1080 | 41,2 
— ZP spricht nicht hinreichend genug Deutsch 121 2,1 10 0,4 
— Adresse nicht abschließend bearbeitet 26 0,5 15 0,6 
— Interviews als (Teil-)Fälschung identifiziert 72 1,3 18 | 0,7 
Auswertbare Interviews = | 2299 | 40,2 | 1122 | 42,8 


Quelle: Wasmer et al. (2007), S. 68. 


Um die Qualität der Stichprobe angeben zu können, wird häufig die Aus- 
schöpfungsquote berechnet. Sie bezeichnet den Anteil realisierter Inter- 
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views an einer „bereinigten Bruttostichprobe“. Die „bereinigte Bruttostich- 
probe“ ist die um die stichprobenneutralen Ausfälle bereinigte Zahl aller 
zu befragenden Personen. Wie hoch die Ausschöpfungsquote ist, hängt 
also maßgeblich davon ab, was als stichprobenneutraler Ausfall gezählt 
wird (vgl. Koch 1993). Bei seriösen Studien werden deshalb neben der 
Ausschöpfungsquote auch die Art der Ausfälle angegeben (vgl. für das 
SOEP Hanefeld 1987, 182, 184). Die Ausschöpfungsquote betrug beim 
ALLBUS 2006 in Westdeutschland 40,2% und in Ostdeutschland 42,8%. 
Im ALLBUS 1994 lag die Ausschöpfungsquote noch bei 53,2% (West) 
bzw. 55,2% (Ost) (Koch et al. 1994). Die Ausschöpfungsquote liegt beim 
ALLBUS 2006 also rund 10 Prozentpunkte niedriger als beim ALLBUS 
2004. Die Entwicklung beim ALLBUS zeigt den allgemeinen Trend hin zu 
höherer Befragungsverweigerung. 


Der Umfang des Unit-Nonresponse lässt sich bei allen Formen der Be- 
fragung durch eine Erhöhung der Kontaktversuche — also wiederholtes 
Anschreiben, Antelefonieren, mehrmalige Interviewerbesuche -, kleine Ge- 
schenke (incentives), eine spezielle Schulung der Interviewer usw. reduzie- 
ren (vgl. Dillman 1978). Im European Social Survey wird eine sehr am- 
bitionierte Ausschöpfungsquote (response rate) von 70% in den teilneh- 
menden Staaten angestrebt. In der ersten Runde (2002/2003) wurde diese 
zwar in einer Reihe von Staaten (zum Teil deutlich) unterschritten. In den 
Niederlanden, deren Bevölkerung eher als ‚befragungsmüde‘ gilt, wurde 
allerdings eine Ausschöpfungsquote realisiert, die nur geringfügig unter 
der Zielmarke von 70% lag und deutlich über der nationaler Erhebungen 
(Billiet et al. 2007). Die Zahl der Kontaktversuche und ein spezielles In- 
terviewertraining zur Konversion von Befragungsverweigerern wird für die 
hohe Ausschöpfungsquote verantwortlich gemacht. 


Ausfälle werden sich aber auch bei einer sorgfältigen Datenerhebung kaum 
vermeiden lassen. Umfrageinstitute versuchen, das Problem systemati- 
scher Ausfälle durch die Konstruktion von Gewichtungsfaktoren zu be- 
heben (vgl. Gabler et al. 1994; Elliot 1991). Gruppen, die in der Stich- 
probe im Vergleich zur Grundgesamtheit unterrepräsentiert sind, werden 
bei der Datenanalyse höher gewichtet und Gruppen, die in der Stichprobe 
im Vergleich zur Grundgesamtheit überrepräsentiert sind, werden niedri- 
ger gewichtet, und zwar so, dass die Anteile in der Stichprobe denen der 
Grundgesamtheit entsprechen. Technisch ist diese Art der Gewichtung, 
die als Redressment (Nachgewichtung) bezeichnet wird, mit Statistikpro- 
grammen leicht zu realisieren. 
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Gewichtungsfaktoren können nur für Merkmale gebildet werden, deren 
Verteilung in der Grundgesamtheit bekannt ist, etwa durch Volkszählun- 
gen. Nur für diese Merkmale lassen sich auch systematische Abweichungen 
von der Grundgesamtheit feststellen. Nicht kontrollierbar ist allerdings, ob 
die Ausfälle innerhalb einer Gruppe rein zufällig erfolgt sind: Werden die 
Antworten von Migranten hochgewichtet, weil Migranten in der realisier- 
ten Stichprobe unterrepräsentiert sind, dann fußt dies auf der Annahme, 
dass sich das Antwortverhalten der befragten Migranten nicht von dem 
Antwortverhalten der Migranten unterscheidet, die nicht an der Befragung 
teilgenommen haben. Zudem bleibt Item-Nonresponse bei der Gewichtung 
unberücksichtigt. 


Bei Datenanalysen werden in der Regel die Untersuchungseinheiten be- 
rücksichtigt, die auf den interessierenden Merkmalen keinen einzigen feh- 
lenden Wert aufweisen. Soll der Einfluss des Alters, des Geschlechts und 
der Bildung auf das Erwerbseinkommen mit einer multiplen Regression 
untersucht werden, dann werden ausschließlich die Personen analysiert, 
für die Angaben zu allen vier Merkmalen vorhanden sind. Diese Methode 
wird als löstwise deletion (listenweiser Fallausschluss) bezeichnet. Gerecht- 
fertigt ist diese Vorgehensweise nur dann, wenn die kompletten Fälle als 
eine Zufallsstichprobe aus allen Fällen aufgefasst werden können (keine 
systematischen Ausfälle). Diese Annahme ist in vielen Fällen nicht halt- 
bar. In den vergangenen Jahren wurde daher eine Reihe von statistischen 
Verfahren zur Behandlung von fehlenden Werten (missing values) (weiter- 
)entwickelt, die geringere Anforderungen an den Ausfallmechanismus stel- 
len, weil sie alle beobachteten Informationen ausnutzen (vgl. dazu Allison 
2002; Little und Rubin 2002). 


9.2 Zufall und Wahrscheinlichkeit 


Wenn im Alltag von „Zufall“ gesprochen wird, meint man damit meist 
ein willkürliches Ereignis, das keiner bestimmten und nachvollziehbaren 
Gesetzmäßigkeit unterliegt. Im mathematischen Sinne wird ein Ereignis 
als zufällig bezeichnet, wenn es das Resultat eines Zufallsexperiments ist. 
Bei einem Zufallsexperiment sind die möglichen Ereignisse bekannt, nicht 
aber welches Freignis tatsächlich eintritt. Zufallsexperimente sind zumin- 
dest theoretisch unendlich häufig wiederholbar. Beispiele für Zufallsexpe- 
rimente sind das Werfen einer Münze oder eines Würfels, das Ziehen der 
Lottozahlen oder die Ziehung einer Zufallsstichprobe. Das Auftreten der 
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Ereignisse eines Zufallsexperiments ist mit Wahrscheinlichkeiten mathe- 
matisch exakt beschreibbar. 


Ein einfaches und immer wieder gern benutztes Beispiel ist das Werfen 
eines normalen Würfels. „Normal“ soll heißen, dass der Würfel sechs glei- 
che Seiten hat. Die möglichen Ergebnisse des Wurfs lassen sich mit den 
Ziffern bezeichnen, die auf dem Würfel angegeben sind. Die Menge der 
Elementarergnisse besteht aus den Zahlen 1, 2, 3, 4, 5 und 6. Welches die- 
ser Elementarereignisse auftritt, ist dem Zufallsprozess überlassen. Jedes 
dieser Ereignisse hat die gleiche Auftretenswahrscheinlichkeit, wenn der 
Würfel nicht manipuliert ist und man beim Werfen nicht schummelt. 


Wahrscheinlichkeiten können mit Zahlen im Bereich von 0 bis 1 oder mit 
entsprechenden Prozentwerten (0 bis 100%) bezeichnet werden. Ein si- 
cheres Ereignis hat die Wahrscheinlichkeit 1 bzw. 100%, ein unmögliches 
Ereignis die Wahrscheinlichkeit 0 bzw. 0%. Die Summe der Wahrschein- 
lichkeiten aller Elementarereignisse ist 1, weil sich Elementarereignisse ge- 
genseitig ausschließen. Daraus folgt, dass die Gegenwahrscheinlichkeit ei- 
nes Freignisses 1 abzüglich der Wahrscheinlichkeit des Ereignisses ist. Da 
beim Werfen des Würfels irgendeine Zahl fallen muss — wir schließen also 
aus, dass der Würfel auf der Kante stehenbleiben könnte — und nicht zwei 
Ziffern gleichzeitig auftreten können, lässt sich sagen, dass mit 100%iger 
Wahrscheinlichkeit eine Zahl zwischen 1 und 6 fallen wird. 


Sind alle Elementarereignisse wie beim Werfen eines Würfels gleich wahr- 
scheinlich, dann lassen sich die Wahrscheinlichkeiten P der Elementarer- 
eignisse 7=1,--- ,n mit 


PGO) — 


berechnen, wobei N hier die Zahl der möglichen Elementarereignisse be- 
zeichnet. Für den Wurf eines Würfels ermittelt man für jedes Elementa- 
rereignis die Wahrscheinlichkeit P = 1/6 = 0,16. 


Sind die Elementarereignisse eines Zufallsexperiments gleich wahrschein- 
lich (Laplace-Experiment), dann lässt sich die Wahrscheinlichkeit aller 
möglichen Freignisse eines Zufallsexperiments durch Zählen der günstigen 
Ereignisse A (d.h. das Eintreten von A) im Vergleich zu allen möglichen 
Ereignissen ermitteln: 
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_ Zahl der für A günstigen Ereignisse 


P(A) = (9.1) 


Zahl aller möglichen Freignisse 


Diese Wahrscheinlichkeit wird auch als Laplace-Wahrscheinlichkeit oder a 
priori-Wahrscheinlichkeit bezeichnet. A priori, weil die Wahrscheinlichkeit 
P(A) vor der Durchführung des Zufallsexperiments theoretisch bestimmt 
werden kann. 


Ein Beispiel: Man könnte danach fragen, wie wahrscheinlich das Werfen 
einer geraden Zahl ist. Die möglichen günstigen Ereignisse werden mit 
„oder“ verknüpft: „Wie wahrscheinlich ist der Wurf einer 2 oder einer 4 
oder einer 6?“ Drei von sechs möglichen Elementarereignissen sind gerade 
Zahlen: 


1 
P(gerade Zahl) = DO oder 4oder6) = P(2U4U6) = - = 0,5. (9.2) 


Dem entspricht die Addition der Einzelwahrscheinlichkeiten (Additions- 
theorem), weil sich die möglichen Ereignisse des Zufallsexperiments ‚ein- 
maligen Werfens eines Würfels‘ gegenseitig ausschließen: 


1 1 3 


P(2)+P(4)+P(6)= 2 +2 na (9.3) 


Die Wahrscheinlichkeit des Wurfs einer geraden Zahl beträgt also 0,5. 


Man kann auch danach fragen, wie wahrscheinlich es ist, zweimal hinter- 
einander eine 6 zu werfen, also eine 6 und noch einmal eine 6, P(6 N 6). 
Insgesamt hat das Experiment zweimaliges Werfen eines Würfels 36 Ele- 
mentarereignisse (Tabelle 9.3). Das günstige Ereignis ist (6,6). 


Eines der 36 möglichen Ereignisse ist das zweimalige Werfen einer 6, also 
ist die Wahrscheinlichkeit p(6N 6) = 1/36. Die Wahrscheinlichkeit lässt 
sich aus der Multiplikation der Einzelwahrscheinlichkeiten (Multiplikati- 
onstheorem für unabhängige Ereignisse) berechnen: 
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Tabelle 9.3: Mögliche Ereignisse beim zweimaligen Werfen eines Würfels 


Ergebnis des 1. Wurfs 


1 2 3 4 5 6 
1| (1,1) |21) | 6.1) | A| | (6,1 
2 2|ı9 | (22) | (3.2) | (42) | (5.2) | (62 
e 3 | (1,3) | (2,3) | (8,3) | (4,3) | (5,3) | (6,3 
< alasa lesa | |44) | 6,4 | (6,4 
E 5 | (1,5) | (2,5) | (8,5) | (4,5) | (5,5) | (6,5 
E 6 | (1,6) | (2,6) | (3,6) | (4,6) | (5,6) | (6,6 
11 1 - 
P(6) x P(6) = 2:5 = z = 0,027. (9.4) 


Die Wahrscheinlichkeit, zweimal nacheinander eine 6 zu werfen, beträgt 
also 1/36 bzw. 0,027. 


Weil man beim Würfeln häufig an hohen Zahlen interessiert ist, könnte 
man auch fragen, mit welcher Wahrscheinlichkeit man zweimal hinter- 
einander eine Zahl größer als 4 wirft. Diese Wahrscheinlichkeit lässt sich 
durch Auszählen leicht bestimmen (Tabelle 9.3). Sie beträgt 4/36 = 1/9 = 
0,11. 


Wir werden im nächsten Kapitel noch einen anderen, den frequentisti- 
schen, Wahrscheinlichkeitsbegriff kennen lernen. Eine übersichtliche Ein- 
führung in die Wahrscheinlichkeitstheorie findet sich bei Kühnel und Krebs 
(2007, 107-127). 


9.3 Zufallsgesteuerte Auswahlverfahren 


Ein Auswahlverfahren wird als zufällig bezeichnet, wenn jede Einheit der 
Auswahlgesamtheit eine gleiche bzw. eine angebbare Wahrscheinlichkeit 
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größer null hat, in die Stichprobe zu gelangen. Die gleiche oder bekannte 
Chance wird durch Zufallsverfahren realisiert. 


Wollen wir eine Stichprobe von 500 der 9.700 rheinland-pfälzischen Abi- 
turienten (Angaben laut Statistischem Landesamt Rheinland-Pfalz für 
1995) ziehen, und besitzt jeder Abiturient die gleiche Wahrscheinlichkeit 
in die Stichprobe zu gelangen, dann beträgt die Auswahlwahrscheinlich- 
keit u = 0,052 (also ca. 5%). Daraus folgt unmittelbar, dass Merkmals- 
ausprägungen, die häufig in der Auswahlgesamtheit vorkommen, auch ei- 
ne hohe Wahrscheinlichkeit haben, in die Stichprobe zu gelangen, und 
umgekehrt. Nehmen wir an, dass von den 9.700 rheinland-pfälzischen 
Abiturienten 400 Medizin und 3 Byzantistik studieren möchten. Die 
Wahrscheinlichkeit, einen Abiturienten mit Medizin-Studienwunsch aus- 
zuwählen, ist deutlich höher (400 - 1/9700 = 0,041) als die Wahrschein- 
lichkeit, einen Abiturienten mit Byzantistik-Studienwunsch auszuwählen 
(3 1/9700 = 0,0003). 


9.3.1 Einfache Zufallsauswahlen 


Bei einer einfachen (auch: uneingeschränkten) Zufallsauswahl (simple 
random sample) besitzt jede mögliche Stichprobe vom Umfang n aus 
der Grundgesamtheit (und jedes Element der Grundgesamtheit) dieselbe 
Auswahlwahrscheinlichkeit. Alle Stichprobenelemente werden unabhängig 
voneinander per Zufall in einem Auswahlvorgang ermittelt. 


Technisch kann dies z.B. durch eine Lostrommel (Lotterieauswahl) oder 
durch Zufallszahlen geschehen (vgl. zum konkreten Verfahren Babbie 1997, 
214f.). Nehmen wir an, wir hätten eine Kartei, in der alle 9.700 rheinland- 
pfälzischen Abiturienten verzeichnet wären. Soll unsere Stichprobe 500 
Schüler enthalten, dann können wir die Kartei durchnummerieren und 
500 Zufallszahlen zwischen 1 und 9.700 erzeugen (jede Zahl hat die gleiche 
Wahrscheinlichkeit) bzw. einer Tabelle entnehmen. Diejenigen 500 Schü- 
ler, deren Nummern mit den Zufallszahlen übereinstimmen, gelangen in 
die Stichprobe. Genauso gut könnten wir die Namen der Schüler auf Zet- 
tel schreiben, diese in eine Lostrommel stecken und mischen. Aus dieser 
Trommel müssten dann nacheinander 500 Zettel gezogen und die Namen 
notiert werden. Jeder Schüler hat — wie wir bereits oben gesehen haben — 
eine Auswahlwahrscheinlichkeit von 500/9700 = 0, 052. 
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Für die Stichprobe ist es unerheblich, in welcher Reihenfolge die einzelnen 
Schüler gezogen werden. Zudem kann jeder Schüler nur einmal in die Aus- 
wahl gelangen — wir ziehen die Stichprobe ohne Zurücklegen. Aus einer 
Grundgesamtheit der Größe N können insgesamt (”) (sprich: N über n) 
verschiedene Stichproben des Umfangs n ohne Berücksichtigung der An- 
ordnung und ohne Zurücklegen gezogen werden. Der Ausdruck E ) ist der 
Binomialkoeffizient und wird als „N über n“ gelesen. 


Sei u TE (9.5) 


n! ist die Fakultät von n, also n-(n—1)-(n—2)-3-2-1, N! ist entsprechend N- 
(N—1)(N—2)-3-2-1. Zur Illustration gehen wir von einer Grundgesamtheit 
von N = 4 Elementen aus, nämlich {Vater, Opa, Mutter, Oma}. Wie viele 
Stichproben der Größe n = 2 können aus dieser Grundgesamtheit gezogen 
werden? Insgesamt können 


4 A 24 
DË EE v8) 


Stichproben vom Umfang n = 2 aus einer Grundgesamtheit von N = 4 
Elementen gezogen werden. Die Zusammensetzung der einzelnen Stich- 
proben ist Sı = (Vater, Opa), S2 = (Vater, Mutter), S3 = (Vater, Oma), 
S4 = (Opa, Mutter), S5 = (Opa, Oma) und Sẹ = (Mutter, Oma), wie in 
Tabelle 9.4 zu sehen ist. Die Wahrscheinlichkeit, dass eine bestimmte die- 
ser Stichproben realisiert wird, beträgt P(Stichprobe) = 1/(3) = 1/6. 


Aus einer Grundgesamtheit von 9.700 Schülern lassen sich schon mehr als 
1053 verschiedene Stichproben vom Umfang 500 ziehen. Ein bekanntes 
Anwendungsbeispiel für Gleichung 9.5 ist die Frage nach der Wahrschein- 
lichkeit, 6 Richtige im Lotto 6 aus 49 zu erzielen. Die Anzahl der Möglich- 
keiten, 6 aus 49 Zahlen zu ziehen, beträgt (%) = an = 13983816. Die 
Wahrscheinlichkeit, dass eine bestimmte Kombination fällt (am besten na- 
türlich die, die man selbst getippt hat) beträgt also 1/ (9) = 1/13983816. 
Die Ziehung der Lottozahlen entspricht dem Ziehen einer Stichprobe vom 
Umfang n = 6 aus einer Grundgesamtheit vom Umfang N = 49 ohne 
Berücksichtigung der Reihenfolge und ohne Zurücklegen. 
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Tabelle 9.4: Wahrscheinlichkeiten für Stichproben 


Stichprobe p(Stichprobe) | Frauenanteil 
Sı | Vater, Opa 1/6 0% 
S2 | Vater, Mutter 1/6 50% 
53 | Vater, Oma 1/6 50% 
S4 | Opa, Mutter 1/6 50% 
S; | Opa, Oma 1/6 50% 
S5 | Mutter, Oma 1/6 100% 


Zurück zum Beispiel, das in Tabelle 9.4 dargestellt ist. Aufgrund der 
unterschiedlichen Zusammensetzung der Stichproben variieren auch die 
Kennwerte (Mittelwerte, Anteilswerte etc.). In der rechten Spalte ist der 
Frauenanteil angegeben. In vier der sechs Stichproben beträgt der Frauen- 
anteil 50%, in einer Stichprobe (Vater, Opa) 0% und in einer Stichprobe 
(Mutter, Oma) 100%. In zwei Stichproben wird der Frauenanteil unter- 
bzw. überschätzt, in vier Stichproben stimmt der Frauenanteil mit dem 
Anteil in der Grundgesamtheit überein. Beim Frauenanteil in Stichpro- 
ben handelt es sich um eine Zufallsvariable P . Bei Zufallsvariablen geben 
die Ausprägungen die Ereignisse eines Zufallsexperiments an. Im Beispiel 
ist das Zufallsexperiment das Ziehen einer Stichprobe. Die Zufallsvariable 
Frauenanteil hat die Ausprägungen 0%, 50% und 100 %. 


Weil wir die Wahrscheinlichkeit kennen, mit der die einzelnen Stichproben 
gezogen werden (1/6), können wir auch angeben, mit welcher Wahrschein- 
lichkeit verschiedene Frauenanteile in Stichproben realisiert werden. Die 
Wahrscheinlichkeit einen Frauenanteil von 0% zu erhalten, beträgt 1-1/6. 
In vier Stichproben beträgt der Frauenanteil 50 %. Die Wahrscheinlichkeit, 
in einer Stichprobe einen Frauenanteil von 50% zu erhalten, beträgt daher 
4-1/6 = 4/6 = 2/3. Die Wahrscheinlichkeit, einen Frauenanteil von 100% 
zu erhalten, beträgt 1- 1/6 = 1/6. 


Die Wahrscheinlichkeitsverteilung des Frauenanteils ist in Abbildung 9.2 
visualisiert. Auf der x-Achse sind die Frauenanteile abgetragen, auf der 
y-Achse deren Wahrscheinlichkeit. 


Die Wahrscheinlichkeitsverteilung eines Stichprobenkennwerts — hier des 
Anteilswerts — wird als Kennwerteverteilung bezeichnet. Kennwertevertei- 
lungen geben an, wie stark sich die Kennwerte in möglichen Stichproben 
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Abbildung 9.2: Wahrscheinlichkeitsverteilung des Frauenanteils 
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Stichproben vom Umfang n=2 aus einer Grundgesamtheit vom Umfang N=4 (ohne 
Berücksichtigung der Anordnung und ohne Zurücklegen). 


von den Parametern der Grundgesamtheit unterscheiden. Als Stichpro- 
benfehler wird die Abweichung der Stichprobenkennwerte vom Parameter 


der 


Grundgesamtheit bezeichnet. Der Stichprobenfehler hängt von zwei 


Faktoren ab: der Größe der Stichproben und der Streuung des interessie- 
renden Merkmals in der Grundgesamtheit. 


a) 


Je größer der Stichprobenumfang, umso schmaler ist die Kennwerte- 
verteilung, d.h. Abweichungen der Stichprobenkennwerte vom Para- 
meter der Grundgesamtheit werden kleiner. Bei einem Stichproben- 
umfang von n = 2 variiert der Frauenanteil in Stichproben zwischen 
0% und 100% (Abbildung 9.2). In möglichen Stichproben des Um- 
fangs n = 3 aus der Grundgesamtheit {Vater, Opa, Mutter, Oma} 
variiert der Frauenanteil zwischen 1/3 und 2/3. Im Extremfall besteht 
unsere Stichprobe aus allen Elementen der Grundgesamtheit. In die- 
sem Fall muss der Kennwert der Stichprobe mit dem Parameter der 
Grundgesamtheit übereinstimmen. 

Ein anderer Extremfall besteht, wenn das interessierende Merkmal in 
der Grundgesamtheit keine Streuung aufweist. Im Beispiel wäre dies 
der Fall, wenn unsere Grundgesamtheit aus vier Frauen bestände. Der 
Frauenanteil in der Grundgesamtheit wäre dann 100%. In jeder der 
möglichen Stichproben aus dieser Grundgesamtheit beträgt der Frau- 
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enanteil dann ebenfalls 100%. Je größer die Streuung eines Merkmals 
in der Grundgesamtheit, umso stärker streuen auch die Kennwerte in 
Stichproben. 


Diese Angaben zum Stichprobenfehler werden im nächsten Kapitel präzi- 
siert. Wichtig ist, dass Wahrscheinlichkeitsverteilungen für Stichproben- 
kennwerte die Verbindung zwischen dem (unbekannten) Parameter der 
Grundgesamtheit und den möglichen Stichprobenkennwerten herstellen. 
Die Zusammensetzung und die Kennwerte möglicher Stichproben sind 
Realisationen des Zufallsexperiments Ziehen einer Stichprobe und deshalb 
berechenbar. 


Existieren zentrale Einwohnermelderegister wie in den skandinavischen 
Staaten, dann lassen sich problemlos einfache Zufallsstichproben für Be- 
völkerungsumfragen ziehen — vorausgesetzt das zentrale Einwohnermel- 
deregister darf als Auswahlgrundlage genutzt werden. Für den European 
Social Survey wurden unter anderem in Dänemark, Norwegen, Schweden 
und Finnland einfache Zufallsstichproben aus den Einwohnermelderegis- 
tern gezogen (Häder und Lynn 2007). 


Einfache Zufallsauswahlen werden auch innerhalb von Haushalten zur 
Auswahl von Personen anhand von Zufallszahlentabellen genutzt. Sie ge- 
währleisten, dass jedes Haushaltsmitglied die gleiche Chance hat, an der 
Befragung teilzunehmen. Dazu dient eine Tabelle (Schwedenschlüssel oder 
kish selection grid), die für jede Haushaltsgröße eine zuvor ausgeloste Zu- 
fallszahl enthält. Bei Einpersonenhaushalten kann naturgemäß auch nur 
eine Person befragt werden, weshalb hier in der Tabelle immer eine 1 
verzeichnet sein muss. Für Zweipersonenhaushalte wird eine 1 oder eine 
2, für Dreipersonenhaushalte eine Zahl zwischen 1 und 3, für Vierperso- 
nenhaushalte eine Zahl zwischen 1 und 4 usw. zufällig ausgewählt. Die 
Haushaltsgröße entspricht der Zahl der Personen, die zur Grundgesamt- 
heit zählen. Als Auswahlkriterium wird das Alter herangezogen. Besteht 
ein Haushalt aus vier Personen und findet sich in der Tabelle für diese 
Haushaltsgröße die Zufallszahl „3“, so ist die drittälteste Person zu be- 
fragen. Die Intervieweranweisung könnte natürlich auch vorsehen, dass 
es die drittjüngste Person ist. Für jeden Haushalt wird ein eigener Schwe- 
denschlüssel ausgelost. Die Problematik des Verfahrens liegt auf der Hand: 
Trifft der Interviewer die zu befragende Person nicht an, dann besteht die 
Gefahr, dass einfach eine anwesende Person ausgewählt wird. 
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9.3.2 Systematische Zufallsauswahlen 


Da reine Zufallsauswahlen recht aufwändig sind, bedient man sich häufig 
systematischer Auswahlverfahren. Eine in der Praxis verbreitete Form der 
systematischen Zufallsauswahl ist der Zufallsweg (random walk), der im 
Zusammenhang mit der mehrstufigen Zufallsstichprobe erläutert wird. 


Bei einer systematischen Zufallsstichprobe wird lediglich das erste Stich- 
probenelement per Zufall ermittelt (wiederum anhand der Zufallszahlenta- 
belle oder des Zufallszahlengenerators). Ausgehend von dieser Zufallszahl 
werden alle weiteren Elemente systematisch ausgewählt. Dies geschieht, 
indem jedes k-te Element in die Stichprobe gelangt. Wie groß das Inter- 
vall k zwischen zwei auszuwählenden Elementen ist, hängt von der Größe 
der zu ziehenden Stichprobe und der Größe der Auswahlgesamtheit ab: 


Größe der Auswahlgesamtheit 


Stichprobenintervall k = SE 
Ziel sei wiederum, eine Stichprobe mit 500 Schülern zu konstruieren. In 
unserem Fall würde sich nach dieser Formel ein Stichprobenintervall von 
9700/500 = 19,4 ergeben. Da wir nur jede 19. oder jede 20. Person aus- 
wählen können, runden wir ab und befragen ausgehend von der Zufallszahl 
jeden 19. Schüler. Der Bereich der Zufallszahl ergibt sich ebenfalls durch 
das Stichprobenintervall. Im Beispiel müssen wir eine Zahl zwischen 1 und 
19 ermitteln. Wäre die Zufallszahl 18, dann ist die 18. Person auf der Lis- 
te die erste ausgewählte Person, danach folgt die 37., die 56. usw. bis zur 
9689. Person der Liste. Insgesamt sind es 510 Personen (zehn mehr als 
beabsichtigt, da wir das Intervall abgerundet haben). 


Von allen (X) möglichen Stichproben des Umfangs n aus einer Grundge- 
samtheit N kann bei einer systematischen Zufallsauswahl nur eine gerin- 
ge Zahl realisiert werden: sie entspricht dem Stichprobenintervall k. Im 
Beispiel könnten 19 verschiedene Stichproben gezogen werden, weil ledig- 
lich 19 verschiedene Zahlen (die Startzahlen) zufällig ausgewählt werden, 
während die „restlichen“ Stichprobenelemente in Abhängigkeit vom ersten 
ausgewählten Element bestimmt werden. Die einzelnen Ziehungen sind 
statistisch voneinander abhängig. Das erste gezogene Element bestimmt 
die Auswahl aller weiteren Elemente. Jede der k Stichproben (nicht aber 
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jede der möglichen Stichproben) und jedes Element der Auswahlgesamt- 
heit besitzt die gleiche Wahrscheinlichkeit, ausgewählt zu werden (vgl. 
zum Stichprobenfehler Levy und Lemeshow 1991, 74). 


Problematisch ist eine systematische Zufallsauswahl, wenn die Systematik 
der Auswahl mit der Ordnung der Kartei übereinstimmt und das Ord- 
nungskriterium mit dem Untersuchungsmerkmal korreliert (Böltken 1976, 
166-173). Wäre (zugegebenermaßen unrealistisch) unsere Kartei so auf- 
gebaut, dass der zufällig ausgewählte erste Schüler Mathematik als Leis- 
tungsfach hätte und jeder weitere 19. Schüler ebenfalls, dann enthielte 
unsere Auswahl lediglich Schüler mit mathematischem Schwerpunkt. Als 
Folge erhielten wir ein falsches Bild der Studienwünsche, weil Schüler mit 
Leistungskurs Mathematik sich in ihrer Neigung zu bestimmten Studien- 
fächern mit hoher Wahrscheinlichkeit von allen Schülern unterscheiden. 


9.3.3 Komplexe Zufallsauswahlen 


Liegt keine Auflistung aller Einheiten der Auswahlgesamtheit vor — wie 
im Falle der 60 Millionen bundesdeutschen Wahlberechtigten -, verwen- 
det man zweckmäßigerweise ein mehrstufiges Stichprobenverfahren. Soll 
eine selten vorkommende Merkmalsausprägung untersucht werden, dann 
bietet sich eine disproportional geschichtete Stichprobe an, in der Personen 
mit der interessierenden Merkmalsausprägung überproportional vertreten 
sind. Ist der räumliche oder personelle Kontext einer Zielperson für eine 
Untersuchung interessant, dann ist eine Klumpenstichprobe angemessen. 


Geschichtete Auswahlen 


Zur Ziehung einer geschichteten Stichprobe werden die Elemente der 
Auswahlgesamtheit bezüglich des interessierenden Merkmals in Schichten 
(bzw. Gruppen) eingeteilt. Aus diesen Schichten werden dann (getrennt) 
Zufallsstichproben gezogen. 


Für eine geschichtete Stichprobe sprechen zwei Gründe: Besteht die Aus- 
wahlgesamtheit aus verschiedenen Gruppen, die in sich sehr homogen sind, 
dann kann die Genauigkeit der Stichprobe gegenüber einer einfachen Zu- 
fallsstichprobe bei gleicher Stichprobengröße erhöht werden. Wird die Grö- 
ße einer Schicht entsprechend ihrem Anteil an der Grundgesamtheit ge- 
wählt, dann spricht man von einer proportional geschichteten Stichprobe. 
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In der Regel entscheidet man sich jedoch für geschichtete Stichproben, 
wenn eine oder mehrere Ausprägungen des Schichtmerkmals bei einer ein- 
fachen Zufallsauswahl nicht in hinreichender Zahl in der Stichprobe ver- 
treten wären. In solchen Fällen zieht man eine disproportional geschichtete 
Stichprobe, in der die Anteile der einzelnen Schichten nicht den Anteilen in 
der Grundgesamtheit entsprechen. Die interessierende Schicht wird über- 
repräsentiert. Im Gegensatz zu den zuvor besprochenen einfachen Zufalls- 
auswahlen hat hier jedes Element nicht mehr die gleiche, sondern nur noch 
eine bekannte bzw. angebbare Chance, in die Stichprobe zu gelangen. Im 
ALLBUS wird für West- und Ostdeutschland die Stichprobenziehung ge- 
trennt vorgenommen, und zwar so, dass die Bevölkerung Ostdeutschlands 
in der Gesamtstichprobe im Vergleich zur Grundgesamtheit überrepräsen- 
tiert ist. Durch die disproportionale Schichtung wird erreicht, dass die Fall- 
zahlen für separate Analysen der ostdeutschen Befragten ausreichend hoch 
sind. Wertet man beide Stichproben zusammen aus, dann muss die unter- 
schiedliche Auswahlwahrscheinlichkeit für Ost- und Westdeutsche wieder 
rückgängig gemacht werden. Dies geschieht durch eine Design-Gewichtung 
(vgl. für den ALLBUS 1996 Wasmer et al. 1996, 61 f.). Beim ALLBUS wird 
innerhalb der Schichten — in Ost- und Westdeutschland — eine mehrstufige 
Zufallsstichprobe gezogen. 


Geschichtete Zufallsauswahlen setzen voraus, dass die Verteilung des 
Schichtmerkmals in der Grundgesamtheit bekannt ist. Außerdem muss 
für jede Auswahleinheit das Schichtungsmerkmal feststellbar sein. 


Klumpenauswahlen 


Klumpenstichproben bieten sich immer dann an, wenn man den Kontext, 
also Gruppenzusammenhänge, untersuchen möchte. Die Auswahl bezieht 
sich nicht auf Untersuchungseinheiten, sondern auf Aggregate von Un- 
tersuchungseinheiten, so genannte Klumpen. Von einer Klumpenauswahl 
spricht man nur dann, wenn alle Elemente eines Klumpens in die Stichpro- 
be gelangen und die Elemente des Klumpens die Untersuchungseinheiten 
sind. Wenn wir die Vermutung haben, dass die Studienwünsche der ein- 
zelnen Abiturienten von den Studienwünschen ihrer Mitschüler abhängen, 
wäre eine Klumpenstichprobe angemessen. Die Klumpen wären in diesem 
Fall Schulklassen. Es würde also eine Auswahl von Schulklassen getroffen. 
Alle Schüler der ausgewählten Klassen wären in der Stichprobe. 
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Klumpenauswahlen haben bei gleicher Stichprobengröße in der Regel 
einen größeren Stichprobenfehler als einfache Zufallsauswahlen. Vor allem 
dann, wenn die Klumpen in sich sehr homogen sind, sich aber stark vonein- 
ander unterscheiden. Wären die Gymnasien beispielsweise stark fachlich 
ausgerichtet (technische Gymnasien, Wirtschaftsgymnasien, Gymnasium 
mit fremdsprachigem Schwerpunkt), dann dürften sich die Studienwünsche 
von Abiturienten von Gymnasien mit verschiedenen Schwerpunkten stark 
unterscheiden. Würde z. B. eine Klasse eines Wirtschaftsgymnasiums aus- 
gewählt, dann könnte man annehmen, dass sich die Studienwünsche der 
Schüler erheblich zugunsten wirtschaftswissenschaftlicher Studienzweige 
von allen Schülern unterscheiden. Wir hätten also eventuell einen für die 
Grundgesamtheit ‚untypischen‘ Klumpen gezogen. Da alle Schüler dieser 
Klasse in die Stichprobe gelangen, fällt die Abweichung erheblich ins Ge- 
wicht. 


Mehrstufige Zufallsauswahlen 


Mehrstufige Auswahlen sind eine Reihe nacheinander durchgeführter Zu- 
Jellsauswahlen. Auf der ersten Stufe wird eine Stichprobe aus Gruppen von 
Elementen, den Primäreinheiten, gezogen. Primäreinheiten sind häufig re- 
gionale Einheiten wie Gemeinden oder Stimmbezirke. Aus den Elementen 
der ausgewählten Primäreinheiten wird dann eine weitere Stichprobe gezo- 
gen. Diese Elemente sind die Sekundäreinheiten. Die ausgewählten Sekun- 
däreinheiten können Grundlage einer weiteren Stichprobenziehung sein. 
Auf der letzten Auswahlstufe werden die Untersuchungseinheiten ausge- 
wählt. 


Das Vorgehen soll zunächst am Beispiel der Studienwünsche rheinland- 
pfälzischer Schüler verdeutlicht werden: Wir könnten zunächst eine Stich- 
probe aus allen Schulen ziehen, die ein 13. Schuljahr anbieten (Gymnasien, 
integrierte Gesamtschulen). Die Auswahlgesamtheit besteht auf der ersten 
Stufe aus den 146 Schulen, an denen das Abitur erworben werden kann 
(Primäreinheiten). Aus den ausgewählten Schulen werden dann auf der 
zweiten Stufe Schüler (Sekundäreinheiten) ausgewählt. Wie viele Schü- 
ler wir pro Schule auswählen müssen, um eine Stichprobengröße von 500 
Schülern zu erreichen, hängt davon ab, wie viele Schulen auf der ersten 
Stufe ausgewählt wurden. Wenn wir 50 Schulen auswählen, müssten pro 
Schule 10 Schüler ausgewählt werden; wählen wir 25 Schulen aus, dann 
erhöht sich die Zahl der Schüler auf 20. 
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Der Nachteil mehrstufiger Auswahlverfahren besteht darin, dass man auf 
jeder Auswahlstufe einen Stichprobenfehler begeht und sich diese Stich- 
probenfehler addieren. Der Stichprobenfehler wird umso kleiner, je größer 
die Stichprobe und je geringer die Varianz des interessierenden Merkmals 
in der Auswahlgesamtheit ist. Um den Stichprobenfehler auf der ersten 
Auswahlstufe klein zu halten, müssten also möglichst viele Gruppen bzw. 
Primäreinheiten ausgewählt werden. Ebenso kann man den Stichproben- 
fehler der zweiten Stufe minimieren, indem möglichst viele Sekundärein- 
heiten ausgewählt werden. Im Beispiel müssten zunächst möglichst viele 
Schulen ausgewählt werden und aus diesen Schulen wiederum möglichst 
viele Schüler. In diesem Fall minimiert man beide Fehler durch die Ver- 
größerung der Stichprobe. 


Bei gegebener Stichprobengröße, die bei uns 500 betragen soll, ist es je- 
doch unmöglich, gleichzeitig beide Stichprobenfehler zu minimieren: Je 
mehr Schulen ausgewählt werden, umso weniger Schüler müssen pro Schu- 
le befragt werden und umgekehrt. Anders ausgedrückt: Indem man den 
Stichprobenfehler einer Stufe reduziert, erhöht man den Stichprobenfehler 
auf einer anderen Stufe. 


Aus dieser Zwickmühle kann man sich jedoch befreien, wenn man zusätz- 
lich die Homogenität der Auswahlgesamtheit berücksichtigt. Die Schüler 
einer Schule sind einander ähnlicher als die Schüler verschiedener Schulen. 
Wählen wir nur wenige Schulen aus, besteht eine größere Gefahr, dass die 
ausgewählten Schüler untypisch für alle Schüler sind, als wenn wir mög- 
lichst viele Schulen in der Stichprobe berücksichtigen, diese jedoch im- 
mer nur durch wenige Schüler repräsentiert werden. Eine möglichst hohe 
Zahl an auszuwählenden Primäreinheiten schmälert allerdings den Efhizi- 
enzvorteil mehrstufiger Stichproben, da wir dann wiederum mehr Schulen 
um Schülerlisten bitten müssen, die Interviewer (wenn wir die Befragung 
mündlich vornehmen) weitere Wege zurücklegen müssen usw. Man wägt in 
der Regel die Effizienzvorteile weniger Primäreinheiten gegen die Nachteile 
einer ungenaueren Stichprobe ab und wird einen Mittelweg beschreiten. 


Da die Primäreinheiten — im Beispiel Schulen - in der Regel unterschied- 
lich groß sind, müssen diese mit einer Wahrscheinlichkeit ausgewählt wer- 
den, die proportional zur ihrer Größe ist. Man bezeichnet dieses Design 
auch als PPS-Design (probability proportional to size). 


Nehmen wir an, wir haben uns entschieden, 500 Abiturienten auszuwählen. 
Auf der ersten Stufe sollen 25 Schulen ausgewählt werden, auf der zweiten 
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Stufe jeweils 20 Abiturienten. Die Berechnung der Auswahlwahrschein- 
lichkeit soll nun für zwei verschiedene Schulen verdeutlicht werden: Schule 
A hat 189 Abiturienten, Schule B 49. Würden wir auf der ersten Stufe die 
Schulen nicht entsprechend ihrer Größe auswählen, so hätten beide Schulen 
eine Auswahlwahrscheinlichkeit von 25 x 1/146 = 25/146 = 0,171, da es 
146 Schulen gibt und wir 25 Schulen auswählen. Auf der zweiten Stufe hät- 
te ein Abiturient innerhalb der Schule A die Chance 20/189 = 0,106 aus- 
gewählt zu werden, innerhalb der Schule B wäre die Chance für einen Abi- 
turienten 20/49 = 0,408. Die Gesamtwahrscheinlichkeit kann man berech- 
nen, indem die Wahrscheinlichkeiten beider Stufen multipliziert werden. 
Die Chance, dass ein Abiturient der Schule A in die Stichprobe gelangt, 
würde insgesamt also 0,018 (0,171 x 0,106) betragen, während ein Abitu- 
rient der Schule B mit einer Wahrscheinlichkeit von 0,07 (0,171 x 0,408) 
in der Auswahl vertreten sein würde. 


Wie man sieht, resultieren die ungleichen Auswahlwahrscheinlichkeiten der 
Schüler aus der unterschiedlichen Zahl der Abiturienten an den beiden 
Schulen. Um die unterschiedlichen Auswahlwahrscheinlichkeiten auf der 
zweiten Stufe auszugleichen, muss eine Schule mit 189 Abiturienten eine 
größere Wahrscheinlichkeit erhalten, in die Stichprobe zu gelangen, als eine 
Schule mit 49 Abiturienten. Die Auswahl einer Schule muss proportional 
zu ihrer Größe erfolgen, wobei die Größe einer Schule ihrem Anteil an allen 
Abiturienten entspricht: 


Zahl der Abiturienten einer Schule 
Zahl aller Abiturienten in Rheinland-Pfalz ` 


Größe = 


Für Schule A bedeutet dies, dass ihre Auswahlwahrscheinlichkeit von 25 x 
1/146 = 25/146 = 0,171 auf 25 x 189/9700 = 0,487 steigt, für Schule B, 
dass ihre Auswahlwahrscheinlichkeit von 25 x 1/146 = 25/146 = 0,171 auf 
25 x 49/9700 = 0,126 sinkt (vgl. Tabelle 9.5). 


Die Wahrscheinlichkeit, dass ein Abiturient der Schule A in die Stichprobe 
gelangt, beträgt jetzt 0,052 (0,487 x 0,106); die eines Abiturienten der 
Schule B beträgt ebenfalls 0,052 (0,126 x 0,408). Die Wahrscheinlichkeit 
in die Stichprobe zu gelangen, ist für (die kleinere) Schule B zwar viel 


1 Abweichungen können aufgrund von Rundungen entstehen. Beim Nachrechnen bitte 
ungerundete Werte verwenden. 
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geringer als für (die größere) Schule A (0,126 zu 0,487); dies wird aber 
durch die höhere Auswahlwahrscheinlichkeit der Schüler von Schule B auf 
der zweiten Stufe kompensiert. 


Tabelle 9.5: Auswahlwahrscheinlichkeit beim PPS-Design 


| Schule A Schule B 


1. Stufe 25 x 189/9700 = 0,487 | 25 x 49/9700 = 0,126 
2. Stufe 20/189 = 0,106 20/49 = 0,408 


0,487 x 0,106 = 0,052 | 0,126 x 0,408 = 0,052 


Für die Bundesrepublik existiert kein zentrales Einwohnermelderegister, 
das die Ziehung einer einfachen Zufallsstichprobe ermöglicht. Für Bevöl- 
kerungsumfragen setzt man daher mehrstufige Auswahlverfahren ein. 


Eine Möglichkeit ist eine Auswahl auf Basis des ADM-Mastersamples. 
ADM steht für Arbeitskreis Deutscher Marktforschungsinstitute (vgl. Ar- 
beitskreis Deutscher Markt- und Sozialforschungsinstitute 1999). Für das 
ADM-Mastersample wurde aus den Stimmbezirken zur Wahl des Deut- 
schen Bundestags eine Stichprobe gezogen (vgl. Porst 1985, 86-88). Aus 
diesem Mastersample wurden Unterstichproben — Netze — gezogen, die 
jeweils 210 Stimmbezirke (Sample-Points) umfassen. Die Stimmbezirke 
stellen die Primäreinheiten dar. Auf der zweiten Stufe verzichtet man auf 
die Erstellung einer Liste mit allen Haushalten. Die Zufallsauswahl der 
Haushalte soll durch das Beschreiten eines Zufallswegs (Random Route) 
gewährleistet werden. Der Interviewer erhält eine zufällig gezogene Start- 
adresse und bestimmte Begehungsregeln, die zur Ermittlung der weiteren 
Adressen führen. Adressenermittlung und Interview können dabei getrennt 
(Adress Random) oder gemeinsam erfolgen. Auf der dritten Stufe wer- 
den aus den Haushalten die Befragungspersonen ausgewählt. Besteht ein 
Haushalt aus mehreren Personen, dann muss die zu interviewende Person 
ermittelt werden, z.B. die Person, die zuletzt Geburtstag hatte. Häufig 
werden aber auch Zufallszahlentabellen wie der Schwedenschlüssel verwen- 
det. Die Auswahlwahrscheinlichkeiten auf der letzten Stufe sind ungleich: 
eine Person in einem Einpersonenhaushalt hat eine Auswahlwahrschein- 
lichkeit von 1, für Personen in Vierpersonenhaushalten beträgt diese 1/4. 
Die unterschiedlichen Auswahlwahrscheinlichkeiten können durch Gewich- 
tung bei der Datenanalyse wieder rückgängig gemacht werden (Design- 
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Gewichtung). Der Nachteil der Auswahl der Haushalte und der Befra- 
gungspersonen durch die Interviewer liegt auf der Hand. Eine Zufallsaus- 
wahl liegt nur dann vor, wenn der Interviewer sich sowohl an die Bege- 
hungsregeln als auch an die Zufallszahlentabelle zur Auswahl des Befrag- 
ten hält. Hier ist die Gefahr groß, dass die Interviewer aus Zeitgründen 
die Begehungsregeln „abkürzen“, oder die Person befragen, die sie gerade 
im Haushalt antreffen (vgl. Dorroch 1994). 


Das ADM-Mastersample wurde auch zur Ziehung der Stichproben des 
Sozio-Öökonomischen Panels herangezogen. Der 1984 gezogenen Stichprobe 
A des Sozio-Öökonomischen Panels liegen z.B. knapp 600 Sample-Points 
zugrunde (vgl. Hanefeld 1987, 171-175, 181f.). Beim SOEP erfolgte die 
Ermittlung der Haushaltsadressen getrennt vom Interview (Adress Ran- 
dom). Da das SOEP eine Haushaltsstichprobe ist, entfiel die dritte Stufe 
(vgl. Hanefeld 1987, 136). Bis 1992 (außerdem 1998) wurde das ADM- 
Stichprobendesign auch für den ALLBUS verwendet. 


Seit 1994 (Ausnahme: 1998) werden bei den ALLBUS-Erhebungen Ge- 
meindestichproben mit Adressenziehung aus den Einwohnermelderegistern 
realisiert. Die Stichprobenziehung erfolgt getrennt für Ost- und West- 
deutschland (disproportionale Schichtung). Auf der ersten Stufe werden 
proportional zur Bevölkerungsgröße Gemeinden ausgewählt. Aus den Ein- 
wohnermelderegistern dieser Gemeinden werden auf der zweiten Stufe zu- 
fällig Personen gezogen (vgl. zum ALLBUS 1994 Koch et al. 1994). Die 
Befragung erfolgt persönlich-mündlich. Der Vorteil gegenüber dem ADM- 
Design liegt unter anderem darin, dass die Stichprobenziehung vollkom- 
men getrennt von der Feldphase ist. Die Interviewer haben keinen Einfluss 
auf die Auswahl der Personen. Einwohnermelderegisterstichproben sind al- 
lerdings teuer: auf eine Registerstichprobe musste beim ALLBUS 1998 aus 
finanziellen Gründen verzichtet werden (vgl. Koch et al. 1999, 2 f.). 


Telefonstichproben 


Auch bei Telefonumfragen wird häufig eine mehrstufige Auswahl realisiert. 
Die Zufallsauswahl kann ohne eine Liste der Telefonnummern erfolgen. Das 
ursprünglich in den USA entwickelte Verfahren heißt Random Digit Di- 
alling (RDD). Auf der ersten Stufe kann eine Region/Vermittlungsstelle 
ausgewählt werden, auf der nächsten Stufe wird per Zufallsverfahren eine 
Anschlussnummer erzeugt. Die zufällige Generierung von Telefonnummern 
hat gegenüber einer Auswahl aus dem Telefonbuch den Vorteil, dass auch 
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Teilnehmer in die Stichprobe gelangen können, die nicht im Telefonbuch 
verzeichnet sind. Dies ist in den USA von besonderer Bedeutung, da dort 
der Anteil nicht eingetragener Telefonnummern sehr hoch ist. In Deutsch- 
land sind nach Angaben von Follmer und Smid (1998, 49) 10,6 % der west- 
und 18,7% der ostdeutschen Anschlüsse nicht im Telefonbuch gelistet. 


Die Anwendung des RDD scheitert in der Bundesrepublik daran, dass die 
Vorwahlen und Teilnehmernummern hier — im Gegensatz zu den USA - 
unterschiedliche Längen haben. In Deutschland hat sich für wissenschaft- 
liche Untersuchungen der Gabler-Häder-Auswahlrahmen (Gabler und Hä- 
der 1998) und in der Marktforschung das ADM-Telefonmastersample 
durchgesetzt (Häder und Glemser 2006). Beim Verfahren von Gabler und 
Häder werden zunächst die 100er Blocks in Ortsnetzbereichen ermittelt, 
in denen sich mindestens eine eingetragene Telefonnummer befindet. Ein 
100er Block ist der Stamm einer Telefonnummer ohne die letzten beiden 
Ziffern. Es wird davon ausgegangen, dass in den 100er Blocks, in denen 
sich keine eingetragenen Telefonnummern befinden, auch keine nicht ein- 
getragenen Nummern existieren. Für die besetzten 100er Blocks werden 
alle möglichen Ziffernfolgen erzeugt. Diese Ziffernfolgen werden als Aus- 
wahlgesamtheit für Telefonstichproben zur Verfügung gestellt. Eingetra- 
gene und nicht eingetragene Telefonnummern haben beim Gabler-Häder- 
Design die gleiche Auswahlwahrscheinlichkeit. Nicht jede der generierten 
Ziffern repräsentiert eine existierende Telefonnummer. Es kann sich auch 
um eine nicht vergebene Nummer handeln. Die nicht vergebenen Num- 
mern sind stichprobenneutrale Ausfälle. Telefonstichproben stellen Haus- 
haltsstichproben dar. Kommt ein Kontakt zustande, dann muss auch hier 
wieder zufällig eine Person ausgewählt werden. 


Telefonstichproben für Bevölkerungsumfragen setzen eine hinreichend ho- 
he Telefondichte voraus. Dies ist in West- und auch in Ostdeutschland 
der Fall. Problematisch ist allerdings der zunehmende Anteil von Privat- 
haushalten, die ausschließlich über ein Mobiltelefon erreichbar sind. Bei 
einer Auswahl aus den eingetragenen und nicht eingetragenen Festnetz- 
nummern ist deren Auswahlwahrscheinlichkeit null, d.h. sie können nicht 
in die Stichprobe gelangen. 


In diesem Kapitel wurden die Prinzipien der verschiedenen Auswahlver- 
fahren dargestellt. In der Praxis ist die Ziehung einer Zufallsstichprobe 
aufwändig und mit zahlreichen Problemen behaftet. Finen Einblick in die 
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Praxis der Stichprobenziehung vermitteln Gabler et al. (1998) und der 
Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute (1999). 


9.4 Nicht zufallsgesteuerte Auswahlverfahren 


Bei nicht zufallsgesteuerten Auswahlverfahren unterliegt die Auswahl der 
Untersuchungseinheiten keinem Zufallsprozess. Unterschieden wird zwi- 
schen willkürlichen und bewussten Auswahlverfahren. Willkürlich ist ein 
Verfahren, wenn keine Auswahlkriterien angegeben werden. Bei bewussten 
Auswahlen werden die Elemente nach bestimmten Zielen ausgewählt. 


Im Gegensatz zu den zufallsgesteuerten Auswahlverfahren ist der statisti- 
sche Schluss auf eine Grundgesamtheit nicht möglich, weil keine Angabe 
über die Auswahlwahrscheinlichkeit gemacht werden kann. Wissenschaft- 
ler sind jedoch nicht immer an Aussagen über die Grundgesamtheit in- 
teressiert. Dies gilt insbesondere für die qualitative Sozialforschung (vgl. 
Flick 2007). Zudem sind zufällige Auswahlverfahren nicht immer realisier- 
bar. Die Ziehung einer Zufallsstichprobe aus den wohnungslosen Menschen 
in der Bundesrepublik dürfte sich schwierig gestalten. Möglich sind aber 
Erhebungen in Einrichtungen für wohnungslose Menschen. Die Aussagen 
der Untersuchung müssen sich dann auf die untersuchte Gruppe beschrän- 
ken. Auch experimentelle Designs benötigen keine Zufallsstichproben. In 
Experimenten ist die zufällige Zuteilung der Teilnehmer auf die einzelnen 
Versuchsgruppen entscheidend, nicht eine Zufallsauswahl der Teilnehmer 
aus einer Grundgesamtheit. 


Auch bei nicht zufallsgesteuerten Auswahlen müssen Kriterien der Aus- 
wahl angebbar und beurteilbar sein. Willkürliche Auswahlen — von Schnell 
et al. (2008) als Auswahlen aufs Geratewohl charakterisiert — sind wissen- 
schaftlich nicht zu rechtfertigen. Zu den willkürlichen Auswahlen zählen 
Passantenbefragungen. Eine willkürliche Auswahl liegt aber auch dann 
vor, wenn im Rahmen einer qualitativen Erhebung ausschließlich die leicht 
verfügbaren Fälle (und beispielsweise nicht die theoretisch interessanten 
Fälle) untersucht werden. 


Quotenauswahl 


Eine Mischform aus bewusster und willkürlicher Auswahl stellen Quo- 
tenauswahlen dar. In wissenschaftlichen Untersuchungen werden diese vor 


220 Stichprobenziehung 


allem vom Institut für Demoskopie (IfD) in Allensbach verwandt. Mit Hil- 
fe der Quotenauswahl wird eine Stichprobe angestrebt, die Aussagen über 
die Grundgesamtheit ermöglicht. 


Dies soll durch die Vorgabe von Quoten, d.h. Anteile, mit denen bestimmte 
Merkmalsausprägungen in der Stichprobe vorhanden sein sollen, erreicht 
werden. Die Anteile dieser Merkmalsausprägungen müssen in der Stichpro- 
be genauso groß sein wie in der Grundgesamtheit. Um Quoten vorgeben 
zu können, muss man natürlich zunächst wissen, wie groß der Anteil ei- 
nes Merkmals in der Grundgesamtheit ist. Anhand dieser Quoten wählt 
der Interviewer dann willkürlich die Befragten aus. Die „Willkür“ des In- 
terviewers ist nicht mit Zufall gleichzusetzen, wie von den Befürwortern 
dieses Auswahlverfahrens behauptet wird (vgl. Noelle-Neumann und Pe- 
tersen 1996, 259). 


Kommen wir noch einmal auf die Umfrage unter rheinland-pfälzischen 
Abiturienten zurück. Als Quotierungsmerkmal könnte man z.B. das Ge- 
schlecht vorgeben. Wären 55% aller rheinland-pfälzischen Abiturienten 
Männer und 45% Frauen, dann müßten in unserer Stichprobe ebenfalls 
55% Männer und 45 % Frauen vertreten sein. Welche Schüler wir befragen, 
ist beliebig, solange wir uns an die vorgegebenen Quoten halten. Um dem 
angestrebten Ideal einer „repräsentativen“ Stichprobe näher zu kommen, 
könnte man zusätzlich zum Geschlecht noch vorgeben, wie viel Prozent 
der Schüler aus verschiedenen sozialen Schichten kommen. 


Das Geschlecht und die Schichtzugehörigkeit können nun als unabhän- 
gige Quoten, d.h. isolierte Merkmalsausprägungen, vorgegeben werden. 
Z. D könnte die Quote lauten „60% Frauen und 40% Männer sowie 30% 
Arbeiterschicht, 60% Mittelschicht und 10 % Oberschicht“. Wenn die Quo- 
tierung unabhängig voneinander erfolgt, kann es bei diesem Beispiel theo- 
retisch passieren, dass alle ausgewählten Mittelschichtangehörigen auch 
Frauen sind und die Männer alle Arbeiter- und Öberschichtangehörige 
sind. Die einzelnen Quoten für Geschlecht und Schichtzugehörigkeit wä- 
ren damit zwar erfüllt, nicht aber eine kombinierte bzw. abhängige Quote, 
die die gemeinsame Verteilung des Geschlechts und der Schichtzugehö- 
rigkeit berücksichtigt. Abhängige Quoten setzen exakte Kenntnisse der 
Grundgesamtheit voraus. Man kann sich zudem leicht vorstellen, wie un- 
realisierbar abhängige Quoten werden, wenn mehr als zwei Merkmale bei 
der Quotierung kombiniert werden. Zudem ist die Gefahr des „Umdefinie- 
rens“ durch Interviewer bei seltenen Merkmalskombinationen groß, weil 
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der Aufwand für den Interviewer steigt (vgl. Dorroch 1994, 40). Aus die- 
sem Grunde werden in der Regel meist unabhängige Quoten verwendet 
bzw. kombinierte Quoten für zwei Merkmale (vgl. Noelle-Neumann und 
Petersen 1996, 257). 


Mit der Quotenauswahl sind eine Reihe von Nachteilen verbunden: 


e Die Verteilung der Quotierungsmerkmale in der Grundgesamtheit 
muss bekannt sein. Dies ist nur für wenige Merkmalsausprägungen 
der Fall. 

e Die Quotierungsmerkmale müssen für den Interviewer leicht erfass- 
bar sein, wie etwa das Geschlecht. Schon das Alter, die Schichtzuge- 
hörigkeit oder die Schulbildung können nicht mehr per Augenschein 
festgestellt werden. 

e Ausfälle werden verdeckt, da der Interviewer bei Befragungsverwei- 
gerungen einfach die nächste Person mit den geforderten Merkmalen 
sucht. Eine Statistik über Ausfälle sowie die Berechnung der Ausschöp- 
fungsquote ist somit nicht möglich, die daraus resultierenden Fehler 
bleiben unbekannt. Die Argumentation, Quotenauswahlen seien nicht 
schlechter als Zufallsstichproben, weil dort hohe Anteile von Ausfällen 
zu verzeichnen seien (vgl. Noelle-Neumann und Petersen 1996, 267 £.), 
ist deshalb nicht stichhaltig. Befragungsverweigerungen treten auch 
bei Quotenauswahlen auf. Sie werden nur nicht dokumentiert. 

e (Juotenstichproben sind möglicherweise ‚repräsentativ‘ im Hinblick 
auf die quotierten Merkmale. Ob die Stichprobe auch bei anderen 
Merkmalen ein verkleinertes Abbild der Grundgesamtheit darstellt, 
ist nicht bekannt. Bei Zufallsauswahlen sorgt der Zufallsprozess da- 
für, dass seltene Merkmale nur eine geringe Wahrscheinlichkeit ha- 
ben in die Stichprobe zu gelangen und häufige Merkmale eine hohe 
Wahrscheinlichkeit. Bei Quotenauswahlen ist dies nicht der Fall. Es 
sind keine Auswahlwahrscheinlichkeiten angebbar. Der Schluss auf die 
Grundgesamtheit ist statistisch daher nicht begründbar. 


Der Grund für den Einsatz von Quotenauswahlen besteht vor allem darin, 
dass diese kostengünstiger als Zufallsauswahlen sind. 
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Aufgaben zu Auswahlverfahren 


1. Warum benötigt man Stichproben? Schildern Sie deren Vor- und Nach- 
teile im Vergleich zu Vollerhebungen. 

2. Für den ALLBUS 1994 wurden zunächst 151 Gemeinden ausge- 
wählt. Aus den Einwohnermelderegistern dieser Gemeinden wurden 
die Adressen der zu befragenden Personen per Zufallsauswahl ermit- 
telt. Welches Stichprobenverfahren wurde angewandt? 

3. Sie möchten wissen, in welchem Umfang das „Studi-Ticket“ von den 
Mainzer Studierenden genutzt wird. Das Studentensekretariat stellt 
Ihnen dazu eine Liste mit den Namen der 28.734 Studierenden (WS 
1995/1996) zur Verfügung. Ihre Stichprobe soll mindestens 1.000 Stu- 
dierende umfassen. 

Was ist in diesem Fall die Grundgesamtheit, was die Auswahlgesamt- 
heit? Geben Sie Beispiele für undercoverage und overcoverage. 

Aus dieser Liste möchten Sie nun eine systematische Zufallsstichprobe 
ziehen. Wie gehen Sie vor? 

4. Worin besteht der Unterschied zwischen zufallsgesteuerten und nicht 
zufallsgesteuerten Auswahlverfahren? 
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Mit Hilfe von Wahrscheinlichkeitsverteilungen lässt sich angeben, wie 
Stichprobenkennwerte vom wahren Wert der Grundgesamtheit abweichen. 
Diese Überlegungen sind notwendig, um die Frage zu beantworten, wie 
auf Basis einer einzigen Stichprobe auf die Grundgesamtheit geschlossen 
(Kapitel 11) und Hypothesen über die Grundgesamtheit getestet werden 
können (Kapitel 12). 


Wie im Kapitel Stichprobenziehung angedeutet wurde, muss das Stichpro- 
bendesign bei der Datenanalyse berücksichtigt werden: Design-Gewichte 
werden notwendig, wenn nicht jedes Element der Grundgesamtheit die 
gleiche Auswahlwahrscheinlichkeit hatte — z.B. bei disproportional ge- 
schichteten Stichproben. Bei Schätzung des Stichprobenfehlers muss eine 
Systematik der Auswahl, eine Schichtung oder die „Klumpung“ von Fällen 
berücksichtigt werden (Kohler 2006). Mit Statistik-Programmen wie Stata 
ist dies einfach möglich. Eine Einführung in die Analyse systematischer 
und komplexer Zufallsstichproben geben Scheaffer et al. (1996) (siehe auch 
Levy und Lemeshow 1991). Zur Vereinfachung wird in den folgenden Ka- 
piteln von einfachen Zufallsstichproben ausgegangen. 


10.1 Relative Häufigkeit und Wahrscheinlichkeit 


In Kapitel 9.2 haben wir verschiedene Zufallsexperimente betrachtet: das 
Werfen eines Würfels und das Ziehen einfacher Zufallsstichproben. Bei 
gleichwahrscheinlichen Ereignissen können wir die Wahrscheinlichkeit des 
Auftretens von Ereignissen theoretisch bestimmen, wie wir gesehen ha- 
ben (Laplace- Wahrscheinlichkeit bzw. klassische Wahrscheinlichkeit). So 
beträgt die Wahrscheinlichkeit, beim Würfeln eine 6 zu erzielen, genau 
1/6. 
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DOI 10.1007/978-3-531-91879-2_10, 
© VS Verlag für Sozialwissenschaften | GWV Fachverlage GmbH, Wiesbaden 2009 


224 Wahrscheinlichkeitsverteilungen 


Wahrscheinlichkeiten sind mit relativen Häufigkeiten eng verknüpft, was 
im Bernoulli-Theorem ausgedrückt wird. Das Bernoulli-Theorem be- 
sagt, dass die relative Häufigkeit eines Ereignisses bei unendlicher Wie- 
derholung des Zufallsexperimentes der Wahrscheinlichkeit entspricht. Man 
kann davon ausgehen, dass anstelle einer „unendlich häufigen“ Wiederho- 
lung auch eine „sehr häufige“ Wiederholung eines Zufallsvorgangs genügt, 
also z. B. 100-mal oder 1.000-mal. Das Bernoulli-Theorem ist eine Anwen- 
dung des Gesetzes großer Zahlen (vgl. Fahrmeir et al. 2007, 313 f.). 


Dem Bernoulli-Theorem liegt ein statistischer bzw. frequentistischer 
Wahrscheinlichkeitsbegriff zugrunde (Gleichung 10.1). Beim 100-maligen 
Werfen eines Würfels sollte jede Augenzahl ungefähr 16 oder 17 Mal 
auftreten, denn die Wahrscheinlichkeit für jede der 6 Zahlen beträgt 
1/6 = 0,16 und 100 x 0,16 = 16,6. Bei 1.000 Würfen sollten demnach ca. 
167 Würfe auf eine Augenzahl entfallen. Eine Voraussetzung des Bernoulli- 
Theorems ist, dass eine unendlich häufige Wiederholung theoretisch mög- 
lich ist. 


P(A) = lim rel. Häufigkeit(A) (10.1) 


Nn—Oo 


Das Bernoulli-Theorem lässt sich anhand eines Experiments illustrieren. 
Wir bezeichnen dieses Experiment als Experiment I, da wir später weite- 
re Zufallsexperimente durchführen werden. Ein Programm, das Zufallszah- 
len erzeugt, ersetzt dabei den Würfel. Ein solcher „Zufallszahlengenerator“ 
lässt sich so konstruieren, dass er eine beliebige Zahl innerhalb eines ge- 
gebenen Intervalls mit einer bestimmten Wahrscheinlichkeit produziert. 
Wir lassen uns eine der Zahlen 1 bis 6 erzeugen, wobei jede dieser Zahlen 
gleich wahrscheinlich ist. Das entspricht dem Werfen mit einem Würfel. 
Alle Simulationen in diesem Buch wurden mit den Programmen GSTAT 
und GSTAT2 von Fred Böker (1993, 1998) durchgeführt. 


In Tabelle 10.1 werden die Ergebnisse dieses Experiments I zusammen- 
gefasst. In Spalte A sind die möglichen Ereignisse des Zufallsexperiments 
Werfen eines Würfels angegeben, die Augenzahlen 1, 2, 3, 4, 5, 6. In 
der Spalte P(A) finden sich die Wahrscheinlichkeiten der Ereignisse. Die- 
se lassen sich hier einfach durch Auszählen der günstigen im Vergleich 
zu allen Ereignissen bestimmen (Laplace- Wahrscheinlichkeit). Die Wahr- 
scheinlichkeit ist also bekannt. In den restlichen Spalten der Tabelle sind 
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die relativen Häufigkeiten der einzelnen Augenzahlen angegeben, wenn der 
Würfel 10-mal, 50-mal, 100-mal usw. bis 1.000.000-mal geworfen wurde. 
Beispielsweise gibt die Zahl 0,3000 in der Spalte ‚10° die relative Häu- 
figkeit für die Augenzahl 6 an. Die 6 hat also einen Anteil von 0,3 bzw. 
30% bei den 10 Würfen. Die absoluten Häufigkeiten erhält man, wenn 
man die relativen Häufigkeiten mit der jeweiligen Zahl der Würfe mul- 
tipliziert. Die 6 ist bei den 10 Würfen also 3-mal aufgetreten. Wie man 
sieht, entsprechen die relativen Häufigkeiten bei weniger als 100 Würfen 
nur sehr ungenau den Wahrscheinlichkeiten P(A), nähern sich diesen aber 
mit größer werdender Zahl von Würfen immer mehr an. Bereits bei 10.000 
Würfen stimmen die relativen Häufigkeiten mit den Wahrscheinlichkeiten 
bis auf die zweite Nachkommastelle überein. 


Tabelle 10.1: Wahrscheinlichkeit und relative Häufigkeit beim Werfen ei- 
nes Würfels 


Anzahl der Würfe 


P(A) 10 50 100 1.000 | 10.000 | 100.000 | 1.000.000 
0,16 | 0,2000 | 0,1400 | 0,1800 | 0,1780 | 0,1674 | 0,1668 0,1666 
0,16 | 0,2000 | 0,1600 | 0,1500 | 0,1670 | 0,1676 | 0,1651 0,1666 
0,2000 | 0,2200 | 0,1900 | 0,1530 | 0,1637 | 0,1673 0,1660 
0,16 | 0,0000 | 0,1800 | 0,1600 | 0,1590 | 0,1680 | 0,1672 0,1669 
0,16 | 0,1000 | 0,1000 | 0,1300 | 0,1540 | 0,1656 | 0,1683 0,1673 
0,16 | 0,3000 | 0,2000 | 0,1900 | 0,1890 | 0,1677 | 0,1652 0,1666 
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Der Zusammenhang lässt sich auch graphisch veranschaulichen. Abbil- 
dung 10.1 zeigt vier Säulendiagramme. Links oben sind die relativen Häu- 
figkeiten der Augenzahlen nach 10 Würfen dargestellt, rechts daneben die 
relativen Häufigkeiten nach 100 Würfen, links unten die relativen Häu- 
figkeiten nach 1.000 Würfen und rechts unten die relativen Häufigkeiten 
nach 1.000.000 Würfen. Die Wahrscheinlichkeit P(A) ist gestrichelt einge- 
zeichnet. 


Da hier die relativen Häufigkeiten die Höhe der Säulen bestimmen und die 
Grundfläche der Säulen eine Einheit breit sind, entsprechen die Flächen- 
inhalte genau der relativen Häufigkeit bzw. der Wahrscheinlichkeit. In der 
Summe ergeben die Flächen 1, was der Summe aller relativen Häufigkeiten 
entspricht. 
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Abbildung 10.1: Simulation des Werfens eines Würfels 
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Gestrichelte Linien: P(A) = 1/6 = 0,16 


Im Prinzip haben wir mit diesem Experiment I das Ziehen einer Stichpro- 
be mit Zurücklegen simuliert. Die Stichprobengröße variierte von 10 über 
50, 100, 1.000, 10.000, 100.000 bis zu 1.000.000. Für jede Stichprobe ha- 
ben wir die relativen Häufigkeiten — die Anteile — der Ausprägungen eines 
diskreten Merkmals berechnet. Der „wahre“ Anteil in der Grundgesamt- 
heit (9, sprich: theta) entspricht der Wahrscheinlichkeit eines Ereignisses 
P(A). Wie wir gesehen haben, konvergiert die relative Häufigkeit einer 
Merkmalsausprägung in einer Stichprobe mit wachsendem Stichproben- 
umfang gegen den Anteil der Grundgesamtheit. 


Allerdings kann man die Vergrößerung der Stichprobe nicht wie die An- 
zahl der Würfe beim Würfel-Experiment unendlich oft ausdehnen, denn 
irgendwann stimmt die Größe der Stichprobe mit der der Grundgesamt- 
heit überein. Diese Verletzung der Voraussetzung des Bernoulli-Theorems 
— eine unendliche Wiederholung des Zufallsexperiments entspricht einer 
Vergrößerung der Stichprobe ins Unendliche - ist aber nur dann relevant, 
wenn die Grundgesamtheit nicht besonders groß ist oder umgekehrt die zu 
ziehende Stichprobe sehr groß ist. Wenn die Grundgesamtheit die Stichpro- 
be um den Faktor 100 übersteigt, fällt die Verletzung dieser Voraussetzung 
schon nicht mehr ins Gewicht. 


Relative Häufigkeit und Wahrscheinlichkeit 227 


Weil die relativen Häufigkeiten sich den Wahrscheinlichkeiten nähern, aber 
nicht identisch sind, wäre es wünschenswert zu wissen, wie die relativen 
Häufigkeiten von den Wahrscheinlichkeiten abweichen. Dazu führen wir ein 
neues Experiment durch. Wir vereinfachen Experiment II im Vergleich 
zu Experiment I dadurch, dass nur die relative Häufigkeit des Auftre- 
tens einer einzigen Augenzahl, nämlich der 6, notiert wird. Die Wahr- 
scheinlichkeit dafür beträgt P(A) = 1/6 = 0,16. Die Gegenwahrschein- 


lichkeit P(A) - also die Wahrscheinlichkeit keine 6 zu werfen — entspricht 


P(A)=1-P(A) =1- 0,16 = 0,83. 

Ein Zufallsexperiment bei dem nur zwei Ausgänge (Ereignis und Gege- 
nereignis) möglich sind, wird als Bernoulli-Experiment bezeichnet. Eine 
Reihe nacheinander durchgeführter Bernoulli-Experimente (z. B. mehrma- 
liges Würfeln) nennt man Bernoulli-Kette. Experiment II besteht darin, 
den Würfel 100-mal zu werfen und die Häufigkeit des Auftretens der 6 
festzuhalten. Dieser Versuch wird zehn Mal wiederholt. Die Wahrschein- 
lichkeit für das Auftreten der Zahl 6 ist P(A) = 0,16. Theoretisch müsste 
die 6 nach 100 Würfen ca. 16 oder 17-mal fallen, was einem prozentualen 
Anteil von 16,6% entspricht. 


In Tabelle 10.2 sind die Anteile der Augenzahl 6 bei 100 Würfen für die 
zehn Versuche notiert. Wie man sieht, liegt der beobachtete Wert nur im 
7. Versuch in der Nähe des theoretisch erwarteten Wertes von 16,6%. 


Tabelle 10.2: Anteilswerte der Zahl 6 bei 100 Würfen 


Versuch Nr. | 112|314/5[/617,81I9]/10 


Anteil in % | 20 | 19 | 20 | 20 | 20 | 15 | 17 | 13 | 13 | 18 


Alle anderen Werte weichen mehr oder weniger vom erwarteten Wert 
ab. Was können wir daraus folgern? Wir wissen aufgrund des Bernoulli- 
Theorems, dass bei einer sehr großen Zahl von Würfen (z.B. eine 
1.000.000-mal) die relative Häufigkeit der Wahrscheinlichkeit nahezu ent- 
spricht. Würfeln wir nicht so häufig, dann weichen die relativen Häufigkei- 
ten stärker von der Wahrscheinlichkeit ab. Die Lösung des Problems be- 
steht darin, dass Stichprobenkennwerte nicht „irgendwie“ vom erwarteten 
Wert abweichen. Die Abweichung kann durch Wahrscheinlichkeitsvertei- 
lungen angegeben werden. 
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10.2 Häufigkeiten und Anteile in Stichproben 
10.2.1 Binomialverteilung 


Betrachten wir zunächst eine Häufigkeitsauszählung des Experiments II, 
wenn wir den Versuch nicht 10-mal, sondern 1.000-mal durchführen. Wir 
notieren wieder die Häufigkeit, mit der bei jeweils 100 Würfen die Zahl 
6 fällt. Dies entspricht dem Ziehen von 1.000 Stichproben des Umfangs 
n = 100 mit Zurücklegen. Theoretisch kann die 6 bei jedem dieser 1.000 
Versuchsdurchführungen zwischen 0 und 100-mal fallen. 


Wie wir Tabelle 10.3 entnehmen können, kommen jedoch nur bestimm- 
te Häufigkeiten vor, und manche Werte kommen wesentlich öfter vor als 
andere. So kann man der vierten Zeile der Tabelle entnehmen, dass in 18 
von den insgesamt 1.000 Durchführungen (=1,8% der Experimente) die 
Zahl 6 bei 100 Würfen genau 9-mal fiel, dies entspricht einem Anteil der 
Zahl 6 von 9%. 


Man sieht, dass Anteile, die relativ weit vom erwarteten Wert (16,6 % = 
0,16 - 100) entfernt sind, nur selten oder nie vorkommen, während Häu- 
figkeiten und Anteilswerte in der Nähe des erwarteten Wertes liegen, sehr 
häufig auftreten. Am häufigsten, nämlich in 106 der 1.000 Versuchsdurch- 
führungen (10,6%), fiel die Augenzahl 6 bei 100 Würfen 17-mal, d.h. bei 
17% der 100 Würfe. Wie man an der kumulierten Häufigkeitsverteilung in 
der letzten Spalte von Tabelle 10.3 ablesen kann, liegen 51 % der Anteils- 
werte unterhalb von 17% und entsprechend 49% der Anteilswerte über 
diesem Wert. Durch ein Histogramm kann man die Verteilung graphisch 
veranschaulichen (Abbildung 10.2 auf Seite 230). 


Die Wahrscheinlichkeitsverteilung der Zufallsvariablen „Häufigkeit bzw. 
Anteil der 6 bei 100-maligem Würfeln“ ist die Binomialverteilung. Die 
Wahrscheinlichkeitsverteilung ist in Abbildung 10.2 als gestrichelte Linie 
eingezeichnet. Die Gleichung lautet: 


Joel 


n;0) = C) ën gien, für s=0,1,2,...,n. (10.2) 
T 


Die linke Seite dieser Gleichung ist die Bezeichnung für eine Binomi- 
alverteilung. Da es eine Wahrscheinlichkeitsfunktion ist, wird der Aus- 
druck fz(x|n; 6) als „Wahrscheinlichkeit für x unter der Bedingung, dass 
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Tabelle 10.3: Anteilswerte der Zahl 6 bei 


100 Würfen 


Wiederholungen 
Häufigkeit kum. Häufigkeit 

Anteil | absolut | in % | absolut | in % 

6% 4| 0,4 4 0,4 

7% 4| 0,4 8 0,8 

8% 2| 02 10 1,0 

9% 18 | 1,8 28 2,8 
10% 24 | 2,4 52 5,2 
11% 33 | 3,3 85 8,5 
12% 67| 6,7 152 | 15,2 
13% 72| 72 224 | 22,4 
14% 98 | 9,8 322 | 32,2 
15% 90 | 9,0 412 | 41,2 
16% 98 | 9,8 510 | 51,0 
17% 106 | 10,6 616 | 61,6 
18% 99 | 9,9 715 | 71,5 
19% 74| 7,4 789 | 78,9 
20% 72| 72 861 | 86,1 
21% 45 | 45 906 | 90,6 
22% 43 | 4,3 949 | 94,9 
23% 19 | 19 968 | 96,8 
24% 14| 14 982 | 98,2 
25% 12 | 12 994 | 99,4 
26% 4| 0,4 998 | 99,8 
27% 1| 01 999 | 99,9 
29% 1| 0,1 1000 | 100,0 


und 1.000 
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Abbildung 10.2: Anteilswerte der Zahl 6 bei 100 Würfen und 1.000 
Wiederholungen 
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n und d zutrifft“ gelesen. n ist die Zahl der Wiederholungen des Bernoulli- 
Experimentes (hier: 100 Würfe). 0 (theta) = P(A) ist die Wahrscheinlich- 
keit des interessierenden Ereignisses (hier: 1/6 für das Auftreten der 6). 
n und 0 sind die Parameter der Binomialverteilung. x gibt die Häufigkeit 
an, mit der das interessierende Ereignis eintritt. 


Die Gleichung kann leicht hergeleitet werden. Dazu fragen wir, wie wahr- 
scheinlich es ist, dass die Zahl 6 bei 100 Würfen 20-mal auftritt. A kenn- 
zeichnet das interessierende Ereignis — das Auftreten einer 6, A das Ge- 
genereignis — das Auftreten einer anderen Zahl. Wir betrachten zunächst 
eine konkrete Stichprobe 


(AA... ,AA,A,...,A). 
—- a 


«-mal (n-a)-mal 


Die ersten x Elemente der Stichprobe sind das interessierende Freignis, die 
letzten (n — x) Elemente das Gegenereignis. Beispielsweise könnte in den 
20 ersten Würfen eine 6 auftreten, in den letzten 80 Würfen eine andere 
Zahl. 
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Die einzelnen Würfe sind voneinander unabhängig. Die Wahrscheinlich- 
keit dieser Reihenfolge lässt sich daher durch Multiplikation der Wahr- 
scheinlichkeiten ermitteln, mit der die einzelnen Ereignisse auftreten (vgl. 
Gleichung 9.4, S. 204). 


R sfs Bu R . RR — pt. — (n—x) 
E D WE E (1-0 =0. (1—8) (10.3) 
„mal (n-z)-mal 


So ist die Wahrscheinlichkeit in den ersten 20 Würfen eine 6 und in 
den letzten 80 Würfen eine andere Augenzahl zu erzielen: 0,16” - (1 — 
0,16)100-20, Die Reihenfolge, in der die Zahl 6 auftritt, spielt keine Rolle 
für die Berechnung der Wahrscheinlichkeit. 


Wenn wir danach fragen, mit welcher Wahrscheinlichkeit wir bei 100 Wür- 
fen 20-mal die Zahl 6 erzielen, dann müssen wir alle Stichproben (Rei- 
henfolgen) berücksichtigen, in denen die Zahl 6 20-mal auftritt. So kann 
die Zahl 6 z.B. bei den ersten 10 Würfen und bei den letzten 10 Wür- 
fen auftreten. Insgesamt gibt es (") Möglichkeiten, x aus n Elementen 
auszuwählen (vgl. S. 206). In Ee Stichproben tritt die Zahl 6 daher 20- 
mal auf. Jede dieser Stichproben hat die Realisierungswahrscheinlichkeit 
0,16% S (1 = 0,16)100=20, 


Die Wahrscheinlichkeit, dass die Zahl 6 bei 100 Würfen 20-mal auftritt, 
ist daher: 


> 100 5 = 
fs(20|100; 0,16) = ( > -0,16% . (1 — 0,16)100-20 


100! , 
= — 0 E60 
201. (100-0) ^ i 
= 5,359833704038 - 102° - 1,266 - 10° 


= 0,0679. 


Aus Tabelle 10.3 auf Seite 229 und Abbildung 10.2 geht hervor, dass tat- 
sächlich in 7,2% der 1.000 Experimente 20-mal die 6 geworfen wurde. 
Dieser Wert würde sich mit zunehmender Zahl von Experimenten immer 
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mehr dem theoretisch zu erwartenden Wert von 6,79% annähern. Die er- 
warteten Anteilswerte der Zahl 6 bei 100 Würfen sind in Abbildung 10.2 
mit einer gestrichelten Linie eingezeichnet. 


Was bedeutet das für den Schluss von einer Stichprobe auf die Grundge- 
samtheit? Häufigkeiten und Anteile weichen in einfachen Zufallsstichpro- 
ben vom Parameter der Grundgesamtheit ab. Sie tun dies jedoch nicht be- 
liebig sondern in Form einer Binomialverteilung. Große Abweichungen sind 
sehr unwahrscheinlich, kleine Abweichungen wahrscheinlicher. Weil wir die 
Wahrscheinlichkeitsverteilung der Zufallsvariablen X und P — Häufigkei- 
ten und Anteile in einfachen Zufallsstichproben mit Zurücklegen — kennen, 
können wir die Abweichungen der Stichprobenkennwerte vom Parameter 
der Grundgesamtheit berechnen. 


Erwartungswert und Varianz 


Auch Wahrscheinlichkeitsverteilungen lassen sich durch Maßzahlen be- 
schreiben. In Kapitel 6 haben wir das arithmetische Mittel und die Varianz 
zur Beschreibung einer empirischen Verteilung angegeben. Analog dazu 
bezeichnen der Erwartungswert und die Varianz einer Zufallsvariablen 
die zentrale Lage und die Streuung einer Wahrscheinlichkeitsverteilung. 


Erwartungswert und Varianz der Wahrscheinlichkeitsverteilung der Häu- 
figkeiten können einfach durch folgende Formeln ermittelt werden: 


E(X)=n-0 und (10.4) 


Var(X)=n-0-(1-6). (10.5) 


Der Standardfehler gibt die Standardabweichung der Wahrscheinlichkeits- 
verteilung an und berechnet sich als d Vor XL In unserem Beispiel re- 
sultiert nach Gleichung 10.4 


E(X)=n:-0 
= 100 - 0,16 
= 16,6 
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und nach Gleichung 10.5 


Var(X)=n-0(1- 0) 
= 100 - 0,16 - 0,83 
= 13,8. 


Wir erwarten also bei einem Experiment, dass von 100 Würfen durch- 
schnittlich 16,6-mal die 6 fällt. Die Varianz dieses Wertes bei allen Expe- 
rimenten beträgt 13,8, die Standardabweichung 13,8 = 3,7. 


Wir haben die Häufigkeiten des Auftretens eines bestimmten Ereignisses 
oben bereits in Anteile umgerechnet. Erwartungswert und Varianz der 
Verteilung der Zufallsvariablen P — Anteilswerte — ergeben sich nach 


E(P) = F E(X)=0 und (10.6) 


EE 


n 


ett = 4 Yare (10.7) 


Die Standardabweichung der Anteilswerteverteilung berechnet sich aus der 
Quadratwurzel der Varianz 


Op = le, (10.8) 


Die Standardabweichung von Zufallsvariablen, die zur Schätzung von Pa- 
rametern der Grundgesamtheit verwandt werden, nennt man Standardfeh- 
ler bzw. Standardschätzfehler. o, ist der Standardfehler des Anteilswertes. 
Standardfehler messen die Größe des Stichprobenfehlers. Der Standardfeh- 
ler des Anteils wird umso kleiner, je größer der Stichprobenumfang n ist, 
wie man an Formel 10.8 sehen kann. 


0(1— 90) gibt die Varianz des Anteils in der Grundgesamtheit an, wenn das 
interessierende Ereignis A mit 1 und das Gegenereignis A mit 0 kodiert ist. 
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Die Varianz des Anteils in der Grundgesamtheit ist am größten, wenn 0 = 
0,5 ist. Je weiter 0 von 0,5 entfernt ist, je kleiner die Varianz des Anteils 
in der Grundgesamtheit. Der Standardfehler des Anteils in Stichproben 
steigt mit der Varianz des Anteils in der Grundgesamtheit. 


Im Beispiel erhält man für n = 100 Würfe einen Erwartungswert des 
Anteils von 


E(P) = LE(X) 


Il 
= 
S 
a 


eine Varianz von 


91-9) 

100 
_-0,16(1 — 0,16) 
u 100 


Var(P) = 


= 0,138 


und einen Standardfehler von 
p = y0, 138 = 0,37. 


10.2.2 Hypergeometrische Verteilung 


Würfelt man mehrmals hintereinander, dann entspricht das dem Ziehen 
einer Stichprobe mit Zurücklegen. Für Umfragen zieht man Stichproben 
ohne Zurücklegen. Die Wahrscheinlichkeitsverteilung für Häufigkeiten und 
Anteile in einfachen Zufallsstichproben ohne Zurücklegen ist die hyper- 
geometrische Verteilung. Die Erwartungswerte sind bei der hypergeome- 
trischen Verteilung und der Binomialverteilung identisch. Bei der Berech- 
nung der Varianz wird allerdings noch mit dem Faktor (N — n)/(N — 1) 
multipliziert. Für Häufigkeiten resultiert 
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N-n 


Var(X)=n-9-(1-0)- Gëtt (10.9) 
und für Anteile 
e EE (10.10) 


Für eine gegebene Stichprobengröße n nähert sich (N — n)/(N — 1) mit 
zunehmender Größe der Grundgesamtheit N dem Wert 1 an. Ist der Quo- 
tient aus dem Umfang der Grundgesamtheit und dem Stichprobenumfang 
größer als 20, N/n > 20, kann der Korrekturfaktor (N — n)/(N — 1) ver- 
nachlässigt werden. Dies ist in der Praxis häufig der Fall. 


10.3 Stichprobenmittelwerte 


Unser Beispiel bezog sich bisher auf den Fall, dass wir es mit einer dis- 
kreten Zufallsvariablen zu tun haben. Eine stetige Zufallsvariable wäre 
das Merkmal Alter in einfachen Zufallsstichproben. Stetige Merkmale ha- 
ben nicht abzählbar viele Ausprägungen. Dagegen wäre das Merkmal Ge- 
schlecht eine diskrete Zufallsvariable, da es nur die Ausprägungen „Mann“ 
und „Frau“ besitzt. 


Im Kapitel 10.2.1 haben wir ein Experiment (100-mal Würfeln) mehrmals 
wiederholt. In der Praxis entspricht dies dem Ziehen mehrerer Stichproben 
der Stichprobengröße 100. Bei jedem Experiment haben wir festgehalten, 
wie oft die 6 gefallen ist, was der Feststellung der Häufigkeit - und daraus 
abgeleitet - des Anteilswertes in einer Stichprobe entspricht. 


Wir führen nun ein neues Experiment durch. Experiment III besteht 
darin, aus der Altersverteilung der bundesdeutschen Bevölkerung im Jahr 
1974 einfache Zufallsstichproben (ohne Zurücklegen) mit jeweils 1.000 Be- 
fragten zu ziehen. Insgesamt ziehen wir 1.000 verschiedene Stichproben. 
Für jede Stichprobe berechnen wir den Altersdurchschnitt z. Die Stich- 
probenziehung simulieren wir mit dem Programm ALTMIHI aus GSTAT (vgl. 
Böker 1993). GSTAT enthält die Altersverteilung der bundesdeutschen Be- 
völkerung im Jahr 1974. Der Altersdurchschnitt in der bundesdeutschen 
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Bevölkerung lag 1974 bei u = 37,27 Jahre, die Varianz betrug o? = 504,45. 
u (sprich: mü) und o? (sprich: sigma-Quadrat) kennzeichnen den Mittel- 
wert und die Varianz der Grundgesamtheit. 


Häufigkeitsauszählungen stetiger Variablen werden dargestellt, indem man 
die Merkmalsausprägungen in Intervalle zusammenfasst und die Häufig- 
keit der Werte in diesen Intervallen berichtet. Die Verteilung der Alters- 
durchschnitte wird in Intervalle der Breite 0,1 eingeteilt. Jedes Intervall 
hat eine untere und obere Grenze, z. B. reicht das erste Intervall von 34,75 
bis 34,85 Jahre. Statt der Intervallgrenzen kann als Kategorie auch einfach 
die Intervallmitte angegeben werden, wie das in der folgenden Tabelle 10.4 
zu sehen ist. Das erste Intervall hat z.B. die Mitte 34,8 Jahre. In die- 
ses Intervall fällt der Mittelwert einer einzigen Stichprobe, was bei 1.000 
Stichproben zur relativen Häufigkeit 0,001 führt (bzw. zur prozentualen 
Häufigkeit 0,1%). 


Man sieht, dass manche Altersdurchschnitte deutlich häufiger ermittelt 
werden als andere. Besonders häufig treten Stichproben auf, deren Al- 
tersdurchschnitt £ nah am Wert der Grundgesamtheit u liegt. Größere 
Abweichungen vom Parameter der Grundgesamtheit sind also auch hier, 
wie schon in Tabelle 10.3 auf Seite 229, selten, dagegen sind kleinere Ab- 


weichungen häufiger. 


In Abbildung 10.3 ist die Verteilung der Altersdurchschnitte in den 1.000 
Stichproben als Histogramm dargestellt. Die gestrichelte Linie in Abbil- 
dung 10.3 ist die Wahrscheinlichkeitsfunktion der Normalvertei- 
lung. Wie man sieht, ist die Verteilung der Altersdurchschnitte in den 
1.000 Stichproben (Histogramm) annähernd normalverteilt (gestrichelte 
Linie). 


Wenn wir viele Stichproben eines hinreichend großen Umfangs n ziehen, 
dann verteilen sich die arithmetischen Mittel dieser Stichprobenwerte nor- 
mal. In der Praxis ist die Ziehung vieler Stichproben nicht notwendig. Mit 
dem Zentralen Grenzwertsatz lässt sich theoretisch begründen, dass die 
Zufallsvariable X — Mittelwerte in Stichproben — normalverteilt ist. Und 
zwar unabhängig von der Verteilung des Merkmals in der Grundgesamt- 
heit. Wir werden auf die Verteilung von Stichprobenmittelwerten und den 
Zentralen Grenzwertsatz zurückkommen. Zunächst aber zur Normalver- 
teilung. 
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Tabelle 10.4: Altersdurchschnitte bei 1.000 Stichproben der Größe 1.000 


Häufigkeit kum. Häufigkeit 

Intervallmitte | absolut | in % | absolut in % 
34,8 1 0,10 1 0,10 
35,1 1 0,10 2 0,20 
35,3 1 0,10 3 0,30 
35,5 1 0,10 4 0,40 
35,7 3 0,30 7 0,70 
35,8 7 0,70 14 1,40 
35,9 9 0,90 23 2,30 
36,0 13 1,30 36 3,60 
36,1 13 1,30 49 4,90 
36,2 16 1,60 65 6,50 
36,3 20 2,00 85 8,50 
36,4 23 2,30 108 10,80 
36,5 40 4,00 148 14,80 
36,6 35 3,50 183 18,30 
36,7 44 4,40 227 | 22,70 
36,8 52 5,20 279 27,90 
36,9 52 5,20 331 33,10 
37,0 72 7,20 403 | 40,30 
37,1 38 3,80 441 44,10 
37,2 60 6,00 501 50,10 
37,3 51 5,10 552 55,20 
37,4 52 5,20 604 60,40 
37,5 57 5,70 661 66,10 
37,6 49 4,90 710 71,00 
37,7 40 4,00 750 75,00 
37,8 45 4,50 795 79,50 
37,9 30 3,00 825 82,50 
38,0 35 3,50 860 86,00 
38,1 31 3,10 891 89,10 
38,2 20 2,00 911 91,10 
38,3 16 1,60 927 | 92,70 
38,4 10 1,00 937 | 93,70 
38,5 22 2,20 959 95,90 
38,6 10 1,00 969 96,90 
38,7 8 0,80 977 | 97,70 
38,8 9 0,90 986 98,60 
38,9 6 0,60 992 99,20 
39,0 2 0,20 994 99,40 
39,1 2 0,20 996 99,60 
39,2 1 0,10 997 | 99,70 
39,3 3 0,30 1000 | 100,00 
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Abbildung 10.3: Altersdurchschnitte bei 1.000 Stichproben der Größe 
1.000 


Häufigkeit in % 


ee nn e 
34.5 35 35.5 36 36.5 37 37.5 38 38.5 39 39:5 40 
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10.3.1 Normalverteilung und Standardnormalverteilung 


Die Normalverteilung trägt auch die Namen „Gauß’sche Normalverteilung“ 
— nach ihrem „Mitbegründer“ Carl Friedrich Gauß — oder „Glockenkurve“ 
— wegen ihres charakteristischen, an eine Glocke erinnernden Verlaufs. Die 
Normalverteilung ist bedeutsam 


1. als Verteilung empirischer Merkmale, 
2. als Verteilung von Kennwerten in Stichproben und 
3. als Approximation anderer theoretischer Verteilungen. 


Bei der Körpergröße (Abbildung 6.1, S. 129) oder den Mathematikkennt- 
nissen (Abbildung 8.2, S. 178) handelt es sich näherungsweise um normal- 
verteilte Merkmale. Empirische Merkmale sind in der Regel jedoch nicht 
normalverteilt. Die Bedeutung der Normalverteilung in der Statistik re- 
sultiert vor allem aus den beiden letztgenannten Punkten. Sie gibt die 
Verteilung von Stichprobenmittelwerten an, wie wir im letzten Abschnitt 
gesehen haben. Außerdem können viele Verteilungen durch die Normal- 
verteilung angenähert werden. Unter bestimmten Voraussetzungen geht 
beispielsweise die Binomialverteilung in eine Normalverteilung über, wie 
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wir am Ende des Kapitels sehen werden (vgl. die Übersicht bei Bleymüller 
et al. 2004, Kapitel 11). 


Die Normalverteilungsfunktion für ein empirisches Merkmal in der Stich- 
probe lautet: 


fn(a|z; °) = 3 


e (10.11) 


Ihre beiden Parameter © — das ist das arithmetische Mittel der Verteilung 
- und s? — das ist die Varianz der Verteilung — bestimmen dabei die La- 
ge und Breite der Kurve. Um eine Normalverteilung zu charakterisieren, 
reicht die Angabe des Mittelwertes und der Varianz daher aus. Aus die- 
sem Grunde werden Normalverteilungen meistens mit N (£|s?) bezeichnet. 
Bezieht sich die Normalverteilung auf ein Merkmal der Grundgesamtheit, 
dann werden die griechischen Bezeichnungen für das arithmetische Mittel 
und die Varianz — u und 0? — verwendet: N(u|o?). 


Die Funktion gibt die Wahrscheinlichkeitsdichte an. Zur Verdeutlichung 
sind in Abbildung 10.4 auf der nächsten Seite mehrere Normalverteilungen 
mit verschiedenen Parametern 7 und s? dargestellt. 


Man kann erkennen, dass die Verteilung mit größer werdender Varianz 
5? breiter und bei kleiner werdender Varianz s? schmaler wird. Wird der 
Mittelwert X größer, so verschiebt sich die Verteilung auf der x-Achse nach 
rechts, wird der Mittelwert z kleiner, so verschiebt sie sich nach links. 


Die Normalverteilung hat mehrere Eigenschaften, die man sich bei der 
Anwendung in der Inferenzstatistik zunutze machen kann: 


e Sie ist symmetrisch und eingipflig, wobei ihr Maximum bei z liegt. 
Arithmetisches Mittel, Modalwert und Median sind aus diesem Grund 
identisch. 

e Sie nähert sich asymptotisch der x-Achse, d.h. dem Wert null, wenn 
x gegen +00 oder —oo strebt. Sie wird jedoch nie gleich null (auch 
wenn es in der Abbildung so aussehen sollte). 

e Ihre Wendepunkte - die steilsten Stellen — liegen bei 7 — s und ris 

e Da die Verteilung symmetrisch ist, befinden sich 50 % der Fläche links 
von 7 und 50% rechts von Z. 
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Abbildung 10.4: Normalverteilungen mit verschiedenen Parametern g 
und s? 


ue DEENEN 


Zi 


Die Fläche unterhalb der Normalverteilung gibt an, wie viele z-MWerte sich 
in einem bestimmten Bereich der Verteilung befinden. Zwischen x; = —00 
und za = +00 befinden sich alle x-Werte, also 100%, die dazugehörige 
Fläche beträgt demnach 1. Wir können beliebige Flächen unter der Nor- 
malverteilung bestimmen. Am einfachsten geschieht dies, indem wir uns 
der Standardnormalverteilung bedienen. 


Die Standardnormalverteilung ist eine Normalverteilung, deren Mittelwert 
null und deren Varianz eins ist. Gleichung 10.11 vereinfacht sich zur Dich- 
tefunktion der Standardnormalverteilung: 


(2) = fnl2) = eg (10.12) 


Die Werte der Standardnormalverteilung werden als z-Werte bezeich- 
net, da man die Werte jeder beliebigen Normalverteilung mittels einer z- 
Transformation in eine Standardnormalverteilung überführen kann. Das 
Besondere der Standardnormalverteilung besteht darin, dass die Werte der 
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Verteilungsfunktion in vielen Statistikbüchern in tabellierter Form vorlie- 
gen (vgl. Anhang A, S. 308). Die Verteilungsfunktion Fy(z) der Standard- 
normalverteilung gibt die Wahrscheinlichkeit dafür an, dass die Zufallsva- 
riable Z höchstens den Wert z annimmt. Diese entspricht der Fläche, die 
links von einem z-Wert liegt. Zur Kennzeichnung der Verteilungsfunktion 
verwendet man den griechischen Großbuchstaben ® (Phi). Wie man an 
der Tabelle sieht, braucht man nur z-Werte von —3 bis +3 auszuweisen, 
da die Fläche für z-Werte kleiner als —3 nahezu 0 ist, und für z-Werte 
größer als +3 nahezu 1 bzw. 100%. 


Beispielsweise geht aus der z-Tabelle im Anhang A hervor, dass links vom 
z-Wert 0 die Fläche 0,5 bzw. 50 % liegt. Da es sich um eine zum Mittelwert 
0 symmetrische Verteilung handelt, ist die Fläche, die sich links vom Wert 
0 befindet genauso groß wie die Fläche rechts vom Wert 0. Links vom z- 
Wert +2,5 befinden sich 99,38% der Fläche, links vom z-Wert —0,95 sind 
es 17,11%. Wenn man wissen möchte, welcher Flächenanteil sich rechts 
vom z-Wert befindet, kann man sich die Tatsache zunutze machen, dass 
sich unter der gesamten Verteilung die Fläche 1 bzw. 100 % befindet. Wenn 
links von einem z-Wert die Fläche ® ist, dann befindet sich rechts vom 
selben Wert die Fläche 1 — ®. Rechts vom z-Wert +1,49 liegt also die 
Fläche 1 — 0,9319 = 0,0681, d.h. 6,81% der Gesamtfläche. 


Ganz ähnlich lässt sich auch verfahren, wenn man wissen möchte, wie groß 
die Fläche innerhalb bestimmter Grenzen bzw. innerhalb eines Intervalles 
ist. Da die Tabelle immer die Fläche ausweist, die links von einem z- 
Wert liegt, muss man, um ein Intervall zwischen zwei Werten zu erhalten, 
von der Fläche, die links vom größeren z-Wert (z2) liegt, die Fläche, die 
links vom kleineren z-Wert (z1) liegt, subtrahieren: ®(Az) = ®,, — d 
Zwischen —1,03 und +2 befinden sich also ®,, — ®,, = 0,9772 — 0,1515 = 
0,8257 = 82,57 % der Fläche. 


Die Flächenberechnung ist in den Abbildungen 10.5 a) bis 10.5 d) visua- 
lisiert. Abbildung 10.5 a) zeigt die Fläche links vom z-Wert +2,5, Abbil- 
dung 10.5 b) links von —0,95. Abbildung 10.5 c) zeigt die Fläche rechts von 
+1,49 und Abbildung 10.5 d) schließlich die Fläche zwischen den z-Werten 
—1,03 und +2. 
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Abbildung 10.5: Flächen unter der Standardnormalverteilung 


a) z = 2,5: &(z) = 0,9938 b) z = -0,95; ©(z) = 0,1711 
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Für die Intervalle um den Mittelwert (—1;1), (—2;2) und (—3;3) lassen 
sich folgende Flächen festhalten: 


1. Zwischen —1 und +1 liegen 68,27 % der Fläche bzw. der z-Werte. 
2. Zwischen —2 und +2 liegen 95,45 % der Fläche bzw. der z-Werte. 
3. Zwischen —3 und +3 liegen 99,73% der Fläche bzw. der z-Werte. 


Da jede Normalverteilung durch eine z-Transformation in eine Stan- 
dardnormalverteilung überführt werden kann, können wir auch für jede 
beliebige Normalverteilung mit Hilfe der z-Tabelle Flächenanteile bestim- 
men, wenn wir zuvor den entsprechenden x-Wert z-transformiert haben. 
Ein Wert einer beliebigen Verteilung wird z-transformiert (und damit 
standardisiert), indem von diesem Wert den Mittelwert der Verteilung sub- 
trahiert und das Ergebnis durch die Standardabweichung dividiert wird. 


(10.13) 


Wenn jeder Wert einer beliebigen Normalverteilung z-transformiert wird, 
erhält man eine Standardnormalverteilung mit den Parametern £ = 0 und 
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si = s = 1. Ihre z;-Werte sind jetzt z;-Werte. Sie wird deshalb auch „z- 


Verteilung“ genannt. Auf dem umgekehrten Weg kann jede z-Verteilung 
in eine beliebige Verteilung mit den Parametern X und s? überführt wer- 
den: 


BEE EE (10.14) 


Da auch jede Normalverteilung über die Umkehrung der z-Transformation 
gemäß Gleichung (10.14) aus der z-Verteilung ableitbar ist, lässt sich an- 
hand der tabellierten z-Werte die Flächenberechnung für jede Nor- 
malverteilung durchführen. 


Um herauszufinden, wie viel Prozent der Fläche bei einer beliebigen Nor- 
malverteilung zwischen zwei x- Werten liegt, z-standardisiert man zunächst 
die beiden x-Werte, um dann die Flächen für die standardisierten Werte 
aus der z-Tabelle abzulesen: 


Und auf ein Beispiel angewendet: In einer Normalverteilung mit dem Mit- 
telwert £ = 3 und einer Standardabweichung von s = 4 soll die Fläche 
zwischen den Werten mu = 2 und za = 5 berechnet werden: 


(Ar) = d, dr 
= Gr au — Gau 
= o,s — D oz 
= 0,6915 — 0,4013 
= 0,2902 = 29,02%. 


Zwischen den beiden x-Werten 2 und 5 liegen in einer Normalverteilung 
mit dem Mittelwert 3 und der Standardabweichung 2 also 29,02% der 
Werte. 


Mit Hilfe der z-Standardisierung kann auch abgeleitet werden: 
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1. Zwischen Z — 1- s und Z + 1- s liegen 68,27% der Fläche. 
2. Zwischen 7 — 2. s und Z + 2- s liegen 95,45% der Fläche. 
3. Zwischen 7 — 3- s und Z + 3- s liegen 99,73% der Fläche. 


10.3.2 Die Verteilung der Stichprobenmittelwerte 


Aus Abbildung 10.3 auf Seite 238 ging hervor, dass sich Mittelwer- 
te aus mehreren Stichproben normalverteilen. Da es sich um Stichpro- 
benmittelwerte handelt, wurden in Abbildung 10.3 auf der z-Achse nicht 
x-Werte, sondern z-Werte abgetragen. Die Stichprobenmittelwerte X sind 
Realisationen des Zufallsexperimentes Ziehen einer Zufallsstichprobe mit 
Zurücklegen. 


Erwartungswert und Varianz 


Das arithmetische Mittel — der Erwartungswert — der Stichprobenmittel- 
werteverteilung entspricht dem arithmetischen Mittelwert der Grundge- 
samheit p: 


E(X) = u. (10.15) 


Die Varianz der Verteilung der Stichprobenmittelwerte lässt sich durch 


Var(X) = o2 = — (10.16) 


berechnen. 


Die Standardabweichung der Verteilung der Stichprobenmittelwerte oz be- 
rechnet sich als 


2 
navi i, nz 


Sie wird als Standardfehler des Mittelwerts (auch: Standardschätz- 
fehler) bezeichnet, um sie von der Standardabweichung des Merkmals in 
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der Grundgesamtheit (oder einer einzigen Stichprobe) zu unterscheiden. 
Wenn von Standardfehler gesprochen wird, dann ist immer die Breite einer 
Stichprobenkennwerteverteilung gemeint. 


Der Standardfehler des Mittelwerts ist von zwei Faktoren abhängig: Zum 
einen von der Varianz des Merkmals in der Grundgesamtheit, o?) Je stär- 
ker ein Merkmal in der Grundgesamtheit streut, desto mehr werden auch 
die Mittelwerte des Merkmals in verschiedenen Stichproben voneinander 
abweichen. Zum anderen spielt die Stichprobengröße eine entscheidende 
Rolle: Je größer der Umfang der gezogenen Stichproben, umso weniger 
weichen diese vom Parameter der Grundgesamtheit u ab. Die Verteilung 
der Stichprobenmittelwerte ist bei größerem n schmaler. 


Gleichungen 10.15, 10.16 und 10.17 gelten für Stichproben, die mit Zurück- 
legen gezogen wurden und für Stichproben ohne Zurücklegen, in denen der 
Umfang der Grundgesamtheit N mindestens das 20-fache des Umfangs der 
Stichprobe entspricht, 2 > 20. Dies ist im Beispiel — Stichproben des Um- 
fangs n = 1.000 aus der bundesdeutschen Bevölkerung — der Fall. 


Der Erwartungswert des Durchschnittsalters in den Stichproben vom Um- 
fang n = 1.000 ist 


E(X) = u = 37,27 Jahre. 


Varianz und Standardfehler des Mittelwertes betragen 


1000 
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Wir erwarten also durchschnittlich einen Stichprobenmittelwert, der dem 
Parameter der Grundgesamtheit entspricht, nämlich 37,3 Jahre. Der Stan- 
dardfehler des Mittelwertes beträgt 0,71 Jahre. 


Ist in Stichproben ohne Zurücklegen Z < 20, dann muss die Varianz mit 
dem Korrekturfaktor für endliche Grundgesamtheiten multipliziert wer- 
den, den wir bereits in Kapitel 10.2.2 kennen gelernt haben. 


Die Formeln für Varianz und Standardfehler beim Ziehen ohne Zurückle- 
gen und N/n < 20 sind 


Ver(X)= = —. — und (10.18) 


o N-n 


Wir werden den Korrekturfaktor für endliche Gesamtheiten in den nächs- 
ten Kapiteln vernachlässigen, weil N/n bei bevölkerungsweiten Umfragen 
größer als 20 ist. Immer wenn N/n < 20 bzw. n/N > 0,05 müssen die 
Standardfehler entsprechend korrigiert werden. 


Wahrscheinlichkeitsfunktion 


u ist der Erwartungswert der Stichprobenmittelwerteverteilung, oz die 
Standardabweichung, die als Standardfehler bezeichnet wird. Die Glei- 
chung der Stichprobenmittelwerteverteilung lautet: 


fn (Elu oz) = ——e (10.20) 


Oz: V2T 


Anhand dieser Formel kann nun die Wahrscheinlichkeits dichte an der Stel- 
le z bestimmt werden. Der Mittelwert der Altersverteilung in der bundes- 
deutschen Bevölkerung betrug 1974 exakt u = 37,268 Jahre, der Standard- 
fehler des Mittelwerts oz = 0,71025. Diese Werte werden als Parameter in 
die Gleichung (10.20) eingetragen. Die Wahrscheinlichkeitsdichte beträgt 
dann z.B. für z; = 37,2 Jahre 
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1 1 / 37,2—37,268 12 
St ) 


—_e 0,71025 
0,71025 - vim 


fn(37,2|37,268; 0,71025°) = 


= 0.5617 - e7 9;00458 


Dieser Wert ist aber nicht gleichbedeutend mit der Wahrscheinlichkeit des 
Punktes 37,2. Bei stetigen Verteilungen besitzt jeder einzelne der unend- 
lich vielen Punkte die Wahrscheinlichkeit null, denn die Fläche — die ja 
die Wahrscheinlichkeit angibt — über Punkten ist null. In Abbildung 10.3 
wurden zur Darstellung der Werte Intervalle der Breite 0,1 gewählt, somit 
muss der Wert der Wahrscheinlichkeitsdichte mit der Intervallbreite 0,1 
multipliziert werden, um ihn mit dem empirischen Wert vergleichen zu 
können: 0,5591 - 0,1 = 0,05591 bzw. 5,591 %. In Tabelle 10.4 (S. 237) sieht 
man, dass in 6% der 1.000 simulierten Stichproben ein Altersdurchschnitt 
von 37,2 Jahren (Intervallmitte) ermittelt wurde. Der in den Simulationen 
ermittelte Wert von 6% weicht von dem auf Basis der Normalverteilung 
theoretisch ermittelten Wert von 5,591 % geringfügig ab. 


Flächen unter der Stichprobenmittelwerteverteilung 


Die Flächenberechnung der Stichprobenmittelwerteverteilung kann wieder 
über die Tabelle der z-Verteilung erfolgen. Dazu werden die £-Werte z- 
transformiert und die entsprechenden Flächenanteile aus der Tabelle über- 
nommen. Das Vorgehen entspricht also dem Vorgehen bei einer beliebigen 
Normalverteilung. Allerdings lautet die Gleichung der 2-Transformation 
für die Stichprobenmittelwerteverteilung 


(10.21) 


Ti = U+ ži: 0z. (10.22) 
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T; ist bei einer Stichprobenmittelwerteverteilung ein beliebiger Wert der 
Verteilung. 


Analog zur Flächenberechnung unter der Normalverteilung lässt sich für 
die Stichprobenmittelwerteverteilung festhalten: 


1. Zwischen u — 1-05 und u+ 1- 0; liegen 68,27% der Stichprobenmit- 
telwerte. 

2. Zwischen u — 2-0; und u+ 2- oz liegen 95,45% der Stichprobenmit- 
telwerte. 

3. Zwischen u — 3- oz und u +3- os liegen 99,73% der Stichprobenmit- 
telwerte. 


Im Beispiel liegen 95,45 % der Mittelwerte in Stichproben vom Umfang 
n = 1000 zwischen 37,3 — 2: 0,71 = 35,88 und 37,3 + 2 - 0,71 = 38,62 
Jahren. 


10.4 Der Zentrale Grenzwertsatz 


Wir haben mit Hilfe von Simulationen demonstriert, dass sich Mittelwerte 
in Zufallsstichproben bei hinreichend großem Umfang n normalverteilen. 
Die theoretische Begründung liefert der Zentrale Grenzwertsatz. Der Zen- 
trale Grenzwertsatz beinhaltet, dass eine Summe (und damit auch das 
arithmetische Mittel) identisch verteilter Zufallsvariablen mit zunehmen- 
dem Stichprobenumfang n gegen eine Normalverteilung konvergiert (vgl. 
Kühnel und Krebs 2007, 196 ff.). 


Die Bedeutung des Zentralen Grenzwertsatzes liegt darin, dass sich die 
Stichprobenmittelwerte bei hinreichend großem Stichprobenumfang n 
auch dann normalverteilen, wenn das Merkmal in der Grundgesamtheit 
nicht normalverteilt ist. In Abbildung 10.6 ist die Altersverteilung der 
bundesdeutschen Bevölkerung 1974 dargestellt. Die Altersverteilung der 
Grundgesamtheit ist offensichtlich nicht normalverteilt. Dennoch nähern 
sich die Altersdurchschnitte in Stichproben vom Umfang n = 1000 einer 
Normalverteilung an (Abbildung 10.3, S. 238). 


Bleibt die Frage, ab wann der Stichprobenumfang n groß genug ist, da- 
mit sich die Stichprobenmittelwerte normalverteilen. Die Antwort hängt 
von der Verteilung des Merkmals in der Grundgesamtheit ab. Bei Merk- 
malen, die in der Grundgesamtheit normalverteilt sind, verteilen sich die 
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Abbildung 10.6: Altersverteilung der bundesdeutschen Bevölkerung 
1974. u = 37,27 und o = 22,46 Jahre 
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arithmetischen Mittel in Zufallsstichproben unabhängig von der Größe der 
Stichproben immer normal. Bei sehr schiefen Verteilungen muss der Stich- 
probenumfang größer sein. Als Faustregel wird ein Stichprobenumfang von 
n = 30 angegeben, der notwendig ist, damit sich die Stichprobenmittel- 
werteverteilung einer Normalverteilung nähert. 


Normalverteilung als Grenzverteilung für Häufigkeiten und Anteile 


Wir haben gesehen, dass sich Häufigkeiten und Anteile binomial (bzw. 
hypergeometrisch) um den wahren Anteilswert der Grundgesamtheit ver- 
teilen. Bei großem Stichprobenumfang n ist die Normalverteilung auch die 
Grenzverteilung für Häufigkeiten und Anteile. Als hinreichend groß wird 
eine Stichprobe angesehen, wenn 


n-8-(1-6)>9 (10.23) 


(Bleymüller et al. 2004, Kapitel 11.1). Alternativ wird gefordert, dass 


1-9 


n- >9 und n- >’ 9 (10.24) 


1-9 


(vgl. Kühnel und Krebs 2007, 204ff.). Wird der Anteil der Stichprobe p 
zur Schätzung des Standardfehlers des Anteils verwendet (und nicht 8), 
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dann sollte der Stichprobenumfang zudem größer als 60 sein, n > 60 (vgl. 
Kühnel und Krebs 2007, 204ff.). Darauf werden wir im nächsten Kapitel 
zurückkommen. Die Normalverteilung der Anteile hat die Parameter 0 
(Erwartungswert) und CH (Varianz): N (6; Luo), Bei Auswahlen ohne 
Zurücklegen und - < 20 ist die Varianz wieder mit dem Korrekturfaktor 
für endliche Grundgesamtheiten zu multiplizieren. 


Grundgesamtheit - Stichprobe - Stichprobenkennwerte 


Die Unterscheidung zwischen 


1. der Verteilung eines Merkmals in der Grundgesamtheit, 
2. der Verteilung eines Merkmals in der Stichprobe und 
3. der Kennwerteverteilung 


ist für das Verständnis der schließenden Statistik zentral. Zusammenfas- 
send werden die drei Verteilungen am Beispiel der Altersverteilung deshalb 
noch einmal verdeutlicht. Die Verteilung eines Merkmals in der Grundge- 
samtheit ist in der Regel (und im Gegensatz zu den Beispielen aus diesem 
Kapitel) unbekannt. Wir bezeichnen das arithmetische Mittel eines Merk- 
mals in der Grundgesamtheit mit u und dessen Standardabweichung mit 
o. Die Größe der Grundgesamtheit wird mit N bezeichnet. 


Aus der Grundgesamtheit wird die Stichprobe vom Umfang n gezogen. 
Die Verteilung des Merkmals in der gezogenen Stichprobe ist bekannt. 
Das arithmetische Mittel und die Streuung eines Merkmals in der Stich- 
probe können wir aus den beobachteten Daten berechnen (Kapitel 6). Das 
arithmetische Mittel des Merkmals in der Stichprobe bezeichnen wir mit 
X, die Standardabweichung mit s. Je größer der Stichprobenumfang n, 
desto ähnlicher wird die Verteilung des Merkmals in der Stichprobe der 
Verteilung des Merkmals in der Grundgesamtheit und desto näher liegt 
der Stichprobenmittelwert z am Parameter der Grundgesamtheit u. 


Die Kennwerteverteilung ist eine Wahrscheinlichkeitsverteilung. Sie gibt 
die Wahrscheinlichkeit von Kennwerten, z.B. des arithmetischen Mittels, 
in Stichproben gleichen Umfangs n an. Aus dem Zentralen Grenzwertsatz 
folgt — wie wir gesehen haben -, dass sich Mittelwerte in Stichproben bei 
hinreichend großem n normal um den Mittelwert der Grundgesamtheit u 
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verteilen. Das arithmetische Mittel (der Erwartungswert) der Stichproben- 
mittelwerteverteilung ist u. Die Standardabweichung einer Kennwertever- 
teilung wird als Standardfehler bzw. Standardschätzfehler bezeichnet. Der 
Standardfehler gibt an, wie weit Kennwerte in Stichproben vom Parame- 
ter der Grundgesamtheit abweichen. Der Standardfehler des Mittelwerts 
ist øz = =. Mit Hilfe der Kennwerteverteilung lässt sich die Abweichung 
der Kennwerte in Stichproben vom Parameter der Grundgesamtheit an- 
geben. 


In Abbildung 10.7 sind die drei Verteilungen dargestellt. Oben findet sich 
die Altersverteilung der bundesdeutschen Bevölkerung im Jahr 1974. Auf 
der x-Achse ist das Merkmal Alter abgetragen. Ausnahmsweise sind hier 
die Parameter der Grundgesamtheit bekannt. Der Altersdurchschnitt in 
der Grundgesamtheit (u = 37,27 Jahre) ist durch einen senkrechten 
Strich in der Abbildung eingezeichnet. Darunter ist die Verteilung der 
arithmetischen Mittel des Alters in Stichproben vom Umfang n = 1000 
abgebildet. Auf der x-Achse sind Stichprobenmittelwerte z; — hier Alters- 
durchschnitte — abgetragen. Die Stichprobenmittelwerte verteilen sich mit 
einem Standardfehler von 0,71 normal um den Mittelwert der Grundge- 
samtheit (u = 37,27 Jahre). In der unteren Abbildung ist die Altersver- 
teilung in einer einzigen Stichprobe vom Umfang n = 1000 angegeben. 
Der Alterdurchschnitt liegt in dieser Stichprobe bei £ = 36,4 Jahren, die 
Standardabweichung bei s = 22,41 Jahren. In dieser Stichprobe ist der 
Altersdurchschnitt niedriger als in der Grundgesamtheit. 
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Abbildung 10.7: Grundgesamtheit, Kennwerteverteilung und Stichprobe 
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Altersverteilung der bundesdeutschen Bevölkerung 1974. 
u = 37,27 Jahre und o = 22,46 Jahre 
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Aufgaben zu Wahrscheinlichkeitsverteilungen 


1. 


OT 


Wie viel Prozent der Fläche (der Werte) liegen a) links und b) rechts 
von folgenden z-Werten: z = —2,78; z = —0,1; z = 0,9; z = 1,96? 


. Bitte bestimmen Sie, wie viel Prozent der Fläche bei der Standard- 


normalverteilung zwischen z = —2 und z = 2 liegen. 


. Wodurch werden verschiedene Normalverteilungen charakterisiert, wo- 


durch unterscheiden sich diese? 


. Gegeben ist eine Normalverteilung N (x|20; 16) mit einem Mittelwert 


von 20 und einer Varianz von 16. Bitte berechnen Sie, wie viel Prozent 
der Fläche in das Intervall zwischen 220 und x—23 fällt. 


. Was besagt der „Zentrale Grenzwertsatz“? 
. Gegeben ist die Altersverteilung der Bevölkerung der BRD. Die Stich- 


probenmittelwerte aus dieser Altersverteilung sind nach dem zentralen 
Grenzwertsatz normalverteilt mit einem Mittelwert von 37,9 Jahren 
und einem Standardfehler (<Standardabweichung der Stichproben- 
mittelwerte) von os = 0,7; d.h. N (2|37,9; 0,7”). In wieviel Prozent 
aller Stichproben erhalten Sie einen Altersdurchschnitt zwischen 36,9 
und 38,9 Jahren? 

Antworten Sie mit richtig oder falsch. 

Der Standardfehler eines Stichprobenkennwertes beschreibt 

a) die Standardabweichung in der Grundgesamtheit, 

b) den Fehler, der durch Messungenauigkeiten entsteht, 

c) die Standardabweichung in der Stichprobe, 

d) die Standardabweichung der Kennwerteverteilung. 
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Im letzten Kapitel haben wir uns mit der Abweichung der Kennwerte 
in Stichproben vom Parameter der Grundgesamtheit beschäftigt. In der 
Praxis haben wir nur Daten einer einzigen Stichprobe. Mit diesen Daten 
möchten wir Aussagen über einen Parameter der Grundgesamtheit tref- 
fen. Ein typisches Beispiel sind Wahlprognosen: Dort werden per Umfrage 
die Stimmenanteile für die einzelnen Parteien bei einem Teil der Wähler 
ermittelt. Wissen möchte man natürlich, wie die einzelnen Parteien bei 
allen Wählern abschneiden. 


Die Schätzung der Populationsparameter kann als Punkt- oder als Inter- 
vallschätzung vorgenommen werden. Bei einer Punktschätzung wird der 
Parameter der Grundgesamtheit durch einen einzigen Wert der Stichpro- 
be geschätzt. In der oben dargestellten Wahlumfrage (vgl. Tabelle 9.1 auf 
Seite 194) könnten z. B. die 42,5 % der gültigen Stimmen, die die CDU un- 
ter den Befragten erhielt, als Schätzwert für den Prozentsatz der gültigen 
Stimmen bei allen Wählern verwendet werden. Weil Punktschätzer mit 
der zufälligen Zusammensetzung der Stichprobe variieren, gibt man Be- 
reiche an, in denen die Parameter der Grundgesamtheit mit einer gewissen 
Wahrscheinlichkeit liegen. 


11.1 Punktschätzung 


Als Punktschätzer des arithmetischen Mittels in der Grundgesamtheit pu 
wird das in einer konkreten Stichprobe beobachtete arithmetische Mittel 
T verwandt: 


EE? (11.1) 


T ist eine Realisation der Zufallsvariablen X — arithmetische Mittelwer- 
te in Stichproben. X wird als Schätzfunktion (Schätzer, estimator) für u 
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benutzt. Im ALLBUS 2004 wurde für männliche Befragte in Westdeutsch- 
land eine durchschnittliche Körpergröße von 7 = 178 cm ermittelt, die wir 
zur Schätzung von u verwenden können: ü = 178 cm. 


Zur Schätzung eines Anteils der Grundgesamtheit verwenden wir den An- 
teil in einer konkreten Stichprobe p. 


dn (11.2) 


Die Schätzung des Stimmenanteils der CDU d durch den Stimmenanteil p 
der Stichprobe ist: 6 = 0,425 = 42,5%. Die Schätzfunktion ist die Zufalls- 
variable P — Anteile in Stichproben. 


Schätzer haben drei wünschenswerte Eigenschaften: 


e Erwartungstreue, 
e Fflizienz und 
e Konsistenz. 


Eine Schätzfunktion ist erwartungstreu, wenn der Erwartungswert der 
Funktion, d.h. deren Mittelwert, dem zu schätzenden Parameter der 
Grundgesamtheit entspricht. Der Erwartungswert der Verteilung der arith- 
metischen Mittel in Stichproben X ist u. X ist daher ein unverzerrter 
Schätzer von u. Dagegen ist die Varianz in Stichproben kein unverzerr- 
ter Schätzer der Varianz in der Grundgesamtheit. Die Varianz in einer 
Stichprobe unterschätzt die Varianz in der Grundgesamtheit. Aus diesem 
Grund wird die Varianz einer Stichprobe s? 
multipliziert, wenn sie zur Schätzung der Varianz in der Grundgesamtheit 
o? verwandt wird (vgl. Gleichung 11.6, S. 263). Ein verzerrter Schätzer 
unter- oder überschätzt den Parameter der Grundgesamtheit im Durch- 
schnitt. 


mit einem Korrekturfaktor 


Ein Schätzer ist effizient, wenn er einen kleineren Standardfehler hat als 
andere Schätzer. Als Beispiel soll die Körpergröße herangezogen werden. 
Die Körpergröße ist ein normalverteiltes Merkmal, bei dem arithmetisches 
Mittel und Median identisch sind. Zur Schätzung der zentralen Lage der 
Körpergröße der Grundgesamtheit könnte man nun den Median oder das 
arithmetische Mittel der Stichprobe heranziehen. Es lässt sich zeigen, dass 
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der Median in Stichproben X einen größeren Standardfehler aufweist als 
das arithmetische Mittel in Stichproben X. 


Ein Schätzer wird als konsistent bezeichnet, wenn mit zunehmendem 
Stichprobenumfang die Wahrscheinlichkeit eines Abstands zum zu schät- 
zenden Parameter geringer wird. Konsistenz kennzeichnet das Verhalten 
eines Schätzers bei Vergrößerung der Stichprobe. 


11.2 Konfidenzintervall für den Mittelwert u 


Bei einem Konfidenzintervall wird ein Bereich angegeben, indem der ge- 
suchte Paramter der Grundgesamtheit vermutet wird. 


Wahrscheinlichkeitsintervalle für Stichprobenmittelwerte 


Durch das Zentrale Grenzwerttheorem wissen wir, dass sich Stichproben- 
mittelwerte normalverteilen, wenn die gezogenen Stichproben hinreichend 
groß sind. Deshalb können wir — bei Kenntnis der Varianz o? und des 
Mittelwertes u der Grundgesamtheit — berechnen, wieviel Prozent der 
Stichprobenmittelwerte X in bestimmten Grenzen liegen (vgl. 8.242) und 
umgekehrt, in welchen Grenzen sich ein bestimmter Prozentsatz der Stich- 
probenmittelwerte befindet. Dieser Prozentsatz gibt auch die Wahrschein- 
lichkeit an, mit der ein Stichprobenmittelwert in diesem Intervall erwar- 
tet werden darf. Solche Bereiche, in denen die Stichprobenmittelwerte mit 
einer gewissen Wahrscheinlichkeit liegen, werden als Wahrscheinlichkeits- 
intervalle bezeichnet. 


Gesucht seien z.B. die Grenzen des Intervalls, innerhalb dessen sich 95% 
der Werte einer Standardnormalverteilung symmetrisch zum Mittelwert 
befinden. Wir bestimmen also jetzt nicht die Fläche aufgrund vorgege- 
bener Grenzen, sondern die Grenzen anhand einer vorgegebenen Fläche 
- nämlich 95%. Das gesuchte Intervall, das in Abbildung 11.1 durch die 
schraflierte Fläche repräsentiert wird, umfasst 95% der Werte, die beiden 
nicht schraffierten Flächen rechts und links beinhalten jeweils 2,5% der 
Fläche. Links vom unteren Grenzwert befinden sich also 2,5% der Fläche, 
links vom oberen Grenzwert dagegen 97,5%. Dementsprechend befinden 
sich die beiden Grenzwerte an den Stellen 20,025 bzw. 20,975. Man sucht 
also innerhalb der z-Tabelle in Anhang A die Fläche 0,975 bzw. 0,025 und 
liest dann am Rand der Tabelle den zugehörigen z-Wert ab. Wie man der 
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z-Tabelle entnehmen kann, entspricht der unteren Fläche ein Wert von 
20,025 = —1;96 und der oberen ein Wert von 20,975 = 1,96. 95% der Fläche 
befinden sich bei einer Standardnormalverteilung also zwischen —1,96 und 
+1,96. 


Abbildung 11.1: 95 %-Wahrscheinlichkeitsintervall einer Standard- 
normalverteilung 


Allgemein bezeichnet man die Wahrscheinlichkeit, dass ein Wert nicht in 
das Wahrscheinlichkeitsintervall fällt, mit o. Die Wahrscheinlichkeit da- 
für, dass ein Wert in das Wahrscheinlichkeitsintervall fällt, wird mit 1 — «a 
bezeichnet. Bei Intervallen, die symmetrisch zum Mittelwert p liegen, be- 
finden sich am linken und rechten Rand der Verteilung $ der Gesamtfläche. 
Die Grenzen liegen also bei der Standardnormalverteilung an den Stellen 
za und 21-2, wie man in Abbildung 11.2 sehen kann. Solche zum Mittel- 
punkt symmetrischen Wahrscheinlichkeitsintervalle nennt man zweiseiti- 
ge Intervalle. 


Handelt es sich nicht um eine standardisierte, sondern um eine beliebige 
Normalverteilung — und um eine solche handelt es sich ja auch bei der 
Stichprobenmittelwerteverteilung — dann müssen die Grenzen des Inter- 
valls ze und zı- destandardisiert werden, indem die z-Transformation 
(vgl. Gleichung 10. 21 auf Seite 247) rückgängig En: wird. 


Setzt man za und 21-2 für z in die Gleichung z = Z ein und löst beide 
Gleichungen” nach £ auf, dann erhält man als untere Grenze u + za : 0z 
und als obere Grenze u + 21-2 OS, 
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Abbildung 11.2: Wahrscheinlichkeitsintervall einer Standardnormalver- 


teilung 

0.4- 
03- 
02- 

J Lo 
0.1- 

a/2 a/2 
0.0 : 
Zo? 0 Zon zZ 
Aufgrund der Symmetrie der Verteilung ist ze = —2ı-a, weshalb man 


für die untere Grenze auch u — z1_a - 05 schreiben kann. Die Formel zur 
Berechnung des Wahrscheinlichkeitsintervalls einer Stichprobenmit- 
telwerteverteilung lautet daher (vgl. Abbildung 11.3): 


B- 21-205 <X< u+ 2-2 0z. (11.3) 


Die Berechnung des Wahrscheinlichkeitsintervalls soll wiederum am Bei- 
spiel der Altersverteilung der bundesdeutschen Bevölkerung verdeutlicht 
werden. Das Durchschnittsalter der Bundesbürger betrug 1974 u = 37,27 
Jahre, die Standardabweichung o = 22,46 Jahre. Der Standardfehler des 
Mittelwerts oz gibt die Breite der Kennwerteverteilung an und wird durch 
Ta berechnet. Wir möchten nun wissen, in welchem Intervall sich 95 % der 
arithmetischen Mittel (Altersdurchschnitte) in Stichproben vom Umfang 
n = 1000 aus dieser Grundgesamtheit befinden. a beträgt also 5% bzw. 
0,05, 1 — a somit 95% bzw. 0,95. 
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Abbildung 11.3: Wahrscheinlichkeitsintervall einer Stichprobenmittelwer- 


teverteilung 
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In 95% der möglichen Stichproben vom Umfang n = 1000 liegt der Al- 
tersdurchschnitt zwischen 35,88 und 38,66 Jahren. 


Konfidenzintervall für den Mittelwert u bei bekannter Varianz der 
Grundgesamtheit 


Ebenso wie wir ein Intervall um u gelegt haben, können wir nun ein In- 
tervall um einen Stichprobenmittelwert 7 legen. Liegt ein Stichprobenmit- 
telwert im grau schraffierten Bereich in Abbildung 11.3, dann ist u nicht 
21-2 Gs von diesem Stichprobenmittelwert 7 entfernt. 


weiter als + 
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Wenn nämlich (1 — a) % der möglichen Stichprobenmittelwerte nicht wei- 
ter als +21- 0% (Intervall) vom Mittelwert der Grundgesamtheit u ent- 
fernt sind, dann ist auch der Mittelwert der Grundgesamtheit u nicht 
weiter als Zon: oz vom Stichprobenmittelwert z bei (1 — a) % der mög- 
lichen Stichproben entfernt. Konkret: Weichen 95% der Stichprobenmit- 
telwerte nicht weiter als +1,96 - o; vom Mittelwert der Grundgesamtheit 
u ab, dann ist u bei 95% der Stichprobenmittelwerte auch nicht weiter 
als +1,96 - az von Z entfernt. In 5% der Stichproben ist u weiter entfernt. 
Dieser Prozentsatz kann als Wahrscheinlichkeit interpretiert werden: Die 
Wahrscheinlichkeit dafür, dass der Mittelwert der Grundgesamtheit u im 
Intervall +1,96 - 0; um einen möglichen Stichprobenmittelwert 7 liegt, be- 
trägt 95 %, die Wahrscheinlichkeit, dass u außerhalb dieses Intervalls liegt, 
beträgt lediglich 5%. 


Berechnung von Konfidenzintervallen 


Solche Bereiche, in denen ein unbekannter Parameter der Grundgesamt- 
heit vermutet wird, werden als Vertrauens- oder Konfidenzintervalle be- 
zeichnet. Die Bildung von Konfidenzintervallen erfolgt im Prinzip ebenso 


wie die von Wahrscheinlichkeitsintervallen. Die untere Grenze —2}_a und 
Eu 


die obere Grenze za müssen wiederum für z in die Gleichung z = 
eingesetzt werden. Da wir hier den Wert u suchen, müssen beide Glei- 
chungen jedoch nach u aufgelöst werden. Als Konfidenzintervall erhalten 
wir 


T — 21-8) ` Oz <u<s T+ 2-8) 05 e (11.4) 
mn nn 
untere Grenze obere Grenze 


Setzt man -= für den Standardfehler des Mittelwertes oz ein, ergibt sich 
folgende Gleichung: 


SE 2(1-%) i Ja < H < T+ KÉEN S Ro ! (11.5) 
———— ———— 
untere Grenze obere Grenze 


Die Berechnung des Konfidenzintervalls kann wiederum am Beispiel des 
Durchschnittsalters der bundesdeutschen Bevölkerung im Jahr 1974 nach- 
vollzogen werden. Wir wählen (mit Hilfe des Programmes ALTMIHI aus 
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GSTAT) zufällig eine Stichprobe mit 1.000 Befragten aus und ermitteln für 
diese Stichprobe einen Altersdurchschnitt £ von 38,11 Jahren. Die Stan- 
dardabweichung der Grundgesamtheit o beträgt 22,46 Jahre. Die Inter- 
vallgrenzen können nach Formel 11.5 bestimmt werden: 


22,46 22,46 
< H < 38,11 Tr 21-05) R 


v 1000 7" y1000 
38,11 — 1,96 -0,71 <u<s 3811+1,96-0,71 


38,11 = Z1- 295) x 


36,72 <p u< 39,50. 


Konfidenzintervalle werden häufig in eckigen Klammern angegeben: 
[36,72; 39,5]. Mit 95%iger Wahrscheinlichkeit enthält das Intervall 
[36,72; 39,5] den Altersdurchschnitt der Population. 


Interpretation von Konfidenzintervallen 


Da der Altersdurchschnitt einer Stichprobe £ von deren zufälliger Zusam- 
mensetzung abhängt, werden wir für unterschiedliche Stichproben unter- 
schiedliche Altersdurchschnitte und damit unterschiedliche Konfidenzin- 
tervalle für u erhalten. Mit dem Programm SIMKONOR aus GSTAT sind zehn 
verschiedene Stichproben mit jeweils 1.000 Personen aus der Altersvertei- 
lung der Bundesdeutschen gezogen worden. Für jede der Stichproben wur- 
de das 95%ige Konfidenzintervall berechnet. Die Stichprobenmittelwerte 
sind in Abbildung 11.4 durch Sternchen gekennzeichnet, die Konfidenz- 
intervalle durch Linien. Weil die Stichprobenmittelwerte unterschiedlich 
sind, unterscheidet sich auch die Lage der Konfidenzintervalle. 


Da wir hier ausnahmsweise den Mittelwert der Grundgesamtheit u kennen, 
können wir angeben, ob ein Konfidenzintervall umschließt oder nicht. 
In neun der zehn Stichproben liegt u, das in der Graphik als senkrechter 
Strich eingezeichnet wurde, tatsächlich im berechneten Konfidenzintervall. 
In der siebten Stichprobe liegt der Altersdurchschnitt der Grundgesamt- 
heit, nämlich 37,27 Jahre, außerhalb des Konfidenzintervalls. 


Normalerweise kennt man den Wert von p nicht, weshalb wir nicht ange- 
ben können, ob ein konkretes Konfidenzintervall u tatsächlich einschließt 
oder nicht. In 95% der möglichen Stichproben aus einer Grundgesamtheit 
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Abbildung 11.4: Konfidenzintervalle bei unterschiedlichen Stichproben- 
mittelwerten 


A= 34.481 p= 37.278 B = 48.859 


E 
Ka 
KEE 


A= 34.481 p= 37.278 B= 48.859 
Ausgabe des Programms SIMKONOR aus GSTAT 


wird das Konfidenzintervall den Parameter der Grundgesamtheit enthal- 
ten. Wenn wir — wie im Beispiel — wiederholt Stichproben vom gleichen 
Umfang ziehen, so werden langfristig, d. h. bei einer großen Zahl von Stich- 
proben, etwa 95% der Konfidenzintervalle den Mittelwert der Grundge- 
samtheit beinhalten. In etwa 5% der Stichproben wird das um den Stich- 
probenmittelwert gelegte Konfidenzintervall den Parameter u nicht ein- 
schließen, und wir irren uns bei der Schätzung — wie hier in der siebten 
Stichprobe. Aus diesem Grund wird a auch als Irrtumswahrscheinlich- 
keit und 1 — a als Vertrauenswahrscheinlichkeit bezeichnet. 


Erhöhung der Vertrauenswahrscheinlichkeit 


Ist uns dieser Schluss zu unsicher, dann können wir die Vertrauenswahr- 
scheinlichkeit z.B. auf 1 — a = 0,99, also 99%, erhöhen. Die Irrtumswahr- 
scheinlichkeit beträgt o = 0,01. Die z—Werte zu den Quantilen 0,05 und 
0, 995 sind +2,98. 
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38,11 I. 2 Se u 
j = k 0,011 * D s Ar 0,01, ° 
l zn a 59/1000 
38,11 — 2,58-0,71 cns 38,11+2,58-0,71 
36,28 ue 39,94 


Das Intervall [36,28;39,94| beinhaltet mit 99%iger Wahrscheinlichkeit das 
Durchschnittsalter der bundesdeutschen Bevölkerung. 


Mit zunehmender Vertrauenswahrscheinlichkeit wird das Konfidenzinter- 
vall breiter. Die höhere Sicherheit beim Schließen geht also mit einer unge- 
naueren Schätzung des unbekannten Mittelwerts einher. Der Extremfall, 
dass wir unseren Schluss mit 100%iger Sicherheit tätigen wollten, wür- 
de die Intervallgrenzen auf —o0 bzw. +00 ausdehnen. Die dazugehörende 
Aussage „Mit 100%iger Wahrscheinlichkeit überdeckt das Intervall von 
—0o bis +00 den Parameter u“ ist allerdings nicht informativ. 


Konfidenzintervall für den Mittelwert u bei unbekannter Varianz der 
Grundgesamtheit 


Im vorangegangenen Beispiel sind wir von einer bekannten Varianz o° 


und Standardabweichung o der Grundgesamtheit ausgegangen. Norma- 
lerweise ist o jedoch nicht bekannt, und damit kann auch der Standard- 
fehler des Mittelwerts oz = o/y/n nicht berechnet werden. Als Schätzwert 
der Standardabweichung der Grundgesamtheit o verwendet man dann die 
Standardabweichung der Stichprobe s. Die Varianz in der Stichprobe s? 
ist allerdings kein erwartungstreuer Schätzer der Varianz in der Grundge- 
samtheit. Daher muss s? mit dem Faktor n/(n — 1) korrigiert werden, um 
den Schätzwert für die Varianz der Grundgesamtheit ô? zu erhalten. 


ee, —el .— = (11.6) 


Die Schätzung der Varianz der Grundgesamtheit auf Basis der Stichprobe 
6° unterscheidet sich von der Stichprobenvarianz s? also nur durch den 
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Nenner. Im ersteren Fall wird durch n — 1, im letzteren jedoch durch n 
dividiert. Bei großen Stichproben ist der Berechnungsunterschied bedeu- 
tungslos. Die geschätzte Standardabweichung der Grundgesamtheit ô ist 
Kei 

Durch die Schätzung von o durch die Stichprobendaten nehmen wir einen 
zusätzlichen Unsicherheitsfaktor in Kauf, da die Standardabweichung in 
der Stichprobe nicht identisch mit der Standardabweichung der Grund- 
gesamtheit sein muss. Dieser Tatsache trägt man Rechnung, indem man 
zur Bestimmung der Konfidenzintervalle nicht die z-, sondern die breitere 
t- Verteilung heranzieht. 


t-Verteilung 


Die t-Verteilung ähnelt der Normalverteilung (vgl. Abbildung 11.5), vari- 
iert aber mit der Zahl der „Freiheitsgrade“ (abgekürzt df = degrees of free- 
dom). t-Verteilungen sind flacher und breiter als Normalverteilungen, wei- 
sen aber denselben glockenförmigen Verlauf auf. Mit zunehmender Zahl an 
Freiheitsgraden nähert sich die t-Verteilung der Normalverteilung an, wie 
man in Abbildung 11.5 sieht. Die t-Verteilung ist symmetrisch zum Mittel- 
wert null. Die Varianz der t-Verteilung (df /(df—2)) sinkt mit zunehmender 
Zahl der Freiheitsgrade. Bereits bei 29 Freiheitsgraden unterscheidet sich 
die t-Verteilung kaum noch von der z-Verteilung. Die Freiheitsgrade lassen 
sich als df = n — 1 bestimmen, wobei n der Stichprobenumfang ist. Auch 
die t-Verteilung liegt in Tabellen vor (vgl. Anhang A). 


Für das Konfidenzintervall erhält man 


by z by 
T — ta-&n-1)' m <u< TF bn Sou SE 
KE ee 


untere Grenze obere Grenze 


(11.7) 


Mit Hilfe des Programms ALTER aus GSTAT haben wir eine Stichpro- 
be von 81 Personen aus der bundesdeutschen Bevölkerung gezogen. In 
der Stichprobe beträgt das Durchschnittsalter z = 38,57 Jahre und 
die Varianz si = 423,1249. Nach Gleichung 11.6 von Seite 263 schät- 
zen wir die Standardabweichung des Alters in der Grundgesamtheit auf 


1 Für d < 2 ist die Varianz der Verteilung nicht definiert. 
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Abbildung 11.5: t-Verteilungen in Abhängigkeit vom Freiheitsgrad 


Re t(df=1) 
—— t(df=4) 
— — t(df=29) 
—— N(0;1) 


dE Ka 


6 = V 423,1249 - 3 = 20,7 Jahre. Wir möchten nun mit 95%iger Vertrau- 
enswahrscheinlichkeit das Konfidenzintervall des Altersdurchschnitts der 
Gesamtbevölkerung berechnen; o ist also 0,05 bzw 5%. 


20,7 : 20,7 
38,57 SS Tu. 205.811) f /81 < H < 38,57 + % 005 91-1) S Ken 
20,7 20,7 


38,57 — £(0,975;80) ` <u< 38,57 + 1(0,975;80) © —— 


v81 v81 


38,57 — 1,990 -2,3 < u< 38,57 + 1,990 - 2,3 
33,99 <u< 43,15 


Mit 95%iger Sicherheit überdeckt das Intervall [34 Jahre; 43 Jahre] den 
Altersdurchschnitt in der Grundgesamtheit. Weil die Stichprobe so klein 
ist, ist der Standardfehler des Mittelwertes groß. Das Konfidenzintervall 
fällt daher sehr breit aus. 


Bei einer Stichprobengröße von 121 Befragten und damit 120 Freiheits- 
graden, beträgt der t-Wert für ein zweiseitiges Konfidenzintervall bei ei- 
ner Vertrauenswahrscheinlichkeit von 95% ta-2)120 = 1,98, während der 
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zu dieser Vertrauenswahrscheinlichkeit gehörende z-Wert 21-2 = 1,96 ist. 
Bei einer Stichprobe mit 1.000 Befragten fällt die Differenz zwischen t- 
und z-Wert bereits nicht mehr ins Gewicht. 


t-Tabellen beinhalten t-Verteilungen bis zu 200 Freiheitsgraden. Bei 
großem Stichprobenumfang und großer Zahl an Freiheitsgraden, kann die 
z-Verteilung verwendet werden. 


_ by _ by 
T — zı-2)° T <u< + 21-8) T (11.8) 
— mme — a 


untere Grenze obere Grenze 


Ein abschließendes Beispiel: Im ALLBUS 2004 betrug das Körpergewicht 
der in Westdeutschland befragten 963 Frauen durchschnittlich z = 69 kg 
und ô = 14,2 kg. (Das Minimum der Verteilung liegt bei 37 kg, das 
Maximum bei 160 kg.) Da der Stichprobenumfang relativ groß ist, wenden 
wir die z-Tabelle zur Berechnung eines 99%igen Konfidenzintervalls an. 


14.2 14,2 

69 — Za- 2%) $ 963 < H < 69 + Z-a) . 7963 
ee ue S 
ET Jag SS ` 963 


Das Körpergewicht westdeutscher Frauen liegt mit 99%iger Wahrschein- 
lichkeit im Intervall von 67,8 bis 70,2 kg. 


11.3 Konfidenzintervall für den Anteilswert 0 


Vor der Bundestagswahl 1994 ermittelte die Forschungsgruppe Wahlen in 
einer Umfrage einen Stimmenanteil von 7% für die FDP. Insgesamt wur- 
den 1.250 Personen befragt (vgl. Tabelle 9.1 auf Seite 194). Wir möchten 
natürlich wissen, wie die FDP bei allen Wählern abschneidet. Wir suchen 
also den unbekannten Anteil bzw. Prozentwert # (theta) der FDP in der 
Grundgesamtheit. 
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Die Logik bei der Bildung eines Konfidenzintervalls für Anteilswerte ent- 
spricht der für Mittelwerte. In Kapitel 10 wurde gezeigt, dass sich auch 
Häufigkeiten und Anteilswerte bei hinreichend großem Stichprobenum- 
fang n normal um den Parameter der Grundgesamtheit 0 mit einem Stan- 
dardfehler o, verteilen. Als eine Faustregel für ein „genügend großes n“ 
gilt n- 0- (1-0) > 9. Weil 0 unbekannt ist, wird der Stichprobenan- 
teil p herangezogen: n - p- (1 — p) > 9. Im Beispiel erhalten wir also 
1250 - 0,07 - 0,93 = 81,375. Auch die Bedingungen in Gleichung 10.24 
(S. 249) sind erfüllt, wie man leicht nachrechnen kann. 


Die z-Transformation für die Anteilswerteverteilung lautet 


ER (11.9) 


Das Konfidenzintervall für den unbekannten Anteilswert 0 der Grundge- 
samtheit wird nun gebildet, indem —-21-a als untere Grenze und 21-2 als 
obere Grenze in Gleichung 11.9 eingesetzt und beide Gleichungen nach 0 
aufgelöst werden. Das Konfidenzintervall für den Anteil der Grundgesamt- 
heit 0 berechnet sich demnach nach 


P-2u-9)p SS p+za-4)`0p. (11.10) 
bg mmm mm mmm 
untere Grenze obere Grenze 


Der Standardfehler des Stichprobenanteilswertes o, wird nach Glei- 
chung 10.7 (S. 10.7) 


ermittelt. Weil 8 nicht bekannt ist, schätzen wir op durch den Anteilswert 
in der Stichprobe: 


TEN el (11.11) 
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Setzen wir ö, für o, in Gleichung (11.10) ein, so erhalten wir 


1— 1 
p= zaj E U=») a, EEEN E Q=») um 
2 n 2 n 
KN 
untere Grenze obere Grenze 


Anhand dieser Formel können wir nun das 95%ige Konfidenzintervall für 
den Stimmenanteil der FDP ermitteln. 


[0,07 -0,93 
< 0 < 0,07 a 7-20) S 750 


0,07 — 1,96 - 0,0072 << 0,07 + 1,96 - 0,0072 


0,07 : 0,93 


er 1250 


0,0559 <A< 0,0841 


Das Intervall von 5,6 bis 8,4% der gültigen Stimmen überdeckt den Stim- 
menanteil der FDP bei allen Wählern mit 95%iger Wahrscheinlichkeit. 
Die Wahlkampfstrategen der FDP wären mit dieser Schätzung sicher zu- 
frieden, da die Prognose selbst im schlechtesten Fall einen Einzug in den 
Bundestag beinhaltet. 


11.4 Der Einfluss des Stichprobenumfangs 


Häufig sind die berechneten Konfidenzintervalle zu breit und damit zu 
ungenau. Genauere Schätzungen erhält man, wenn man die Vertrauens- 
wahrscheinlichkeit verringert oder den Stichprobenumfang erhöht. Wenn 
möglich, ist die Erhöhung des Stichprobenumfangs vorzuziehen, da sie 
nicht mit einem Verlust an Präzision einhergeht. Wie groß der Stichpro- 
benumfang sein muss, um eine bestimmte Genauigkeit der Schätzung zu 
erzielen, lässt sich relativ einfach bestimmen: 


Ziel ist es, die Konfidenzintervallbreite (KIB) zu verringern. Die Breite 
des Konfidenzintervalls ist nichts anderes als der Abstand zwischen der 
unteren und der oberen Grenze. Für die Stichprobenmittelwerteverteilung 
beträgt sie 
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o (11.13) 


Diese Gleichung muss nun nach n aufgelöst werden: 


2 2 
r= 2o (11.14) 
KIB 


Ist o unbekannt, so wird dieses wieder durch ô geschätzt. Wir können jetzt 
berechnen, wie groß die Stichprobe der westdeutschen Frauen im ALLBUS 
2004 sein müsste, um den unbekannten Mittelwert u des Körpergewichts 
bei einer Vertrauenswahrscheinlichkeit von 99% mit einer Konfidenzinter- 
vallbreite von 1 kg zu schätzen. Der zu einem Konfidenzintervall von 99 % 
gehörende z-Wert beträgt 2,58, 06 = 14,2 kg. 


2 2 
WE 4. SE 14,2 _ 5369 
Um eine Konfidenzintervallbreite von 1 kg zu erhalten, müssten wir also 
ca. 5.400 Frauen in Westdeutschland befragen. Um die Konfidenzintervall- 
breite nochmals auf 0,5 kg zu halbieren, müssten wir (bei gleicher Vertrau- 
enswahrscheinlichkeit) 21.475 — also viermal so viele — Personen befragen. 
Der Stichprobenumfang muss vervierfacht werden, wenn die Konfidenz- 
intervallbreite halbiert werden soll, weil in Gleichung (11.14) durch die 
quadrierte KIB dividiert wird. 


Der Stichprobenumfang für Anteilswerte lässt sich analog herleiten und 
berechnet sich als 


4-2 a- b0(1—0 
Desch (11.15) 
KIB? 


Ist 0 unbekannt, so wird auch hier der Anteilswert p der Stichprobe zur 
Schätzung herangezogen. 
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Um vorab den benötigten Stichprobenumfang berechnen zu können, muss 
man den Standardfehler kennen oder schätzen. Dazu benötigt man ent- 
weder o bzw. 0 oder o bzw. p. Im obigen Beispiel wurde 6 einer schon 
durchgeführten Untersuchung verwandt. 


Zusammenfassung 


In Tabelle 11.4 sind die Punktschätzer und Konfidenzintervalle für Mittel- 
und Anteilswerte bei unbekannter Varianz der Grundgesamtheit angege- 
ben. In Kapitel 12 wird im Zusammenhang mit einem Testverfahren die 
Berechnung eines Konfidenzintervalls für die Differenz von zwei Mittel- 
werten erläutert. 


Tabelle 11.1: Punkt- und Intervallschätzung 


Punkt- | Standard- Konfidenz- 
Parameter schätzer E intervall 


Mittelwert u SC 
Anteil 7 lee ee] 


* aus der Stichprobe en 


Die allgemeine Struktur von Konfidenzintervallen lautet 


Punktschätzer + Quantilwert - Standardfehler . 


Konfidenzintervalle lassen sich für alle möglichen Parameter der Grund- 
gesamtheit bestimmen. In Kapitel 8 wurde mit einer linearen Regression 
der Einfluss der Lesekenntnisse auf die Mathematikkenntnisse mit dem 
IALS 1994 für die 2.062 deutschen Befragten geschätzt. Der Regressions- 
koeffizient b der Lesefähigkeit in der Stichprobe beträgt 0,84. Wir möch- 
ten wissen, wie stark die Lesekenntnisse die Mathematikkenntnisse in der 
Grundgesamtheit beeinflussen. Gesucht ist der unbekannte Regressions- 
koeffizient der Grundgesamtheit 3. Das Statistik-Programm Stata gibt für 
das 95%ige Konfidenzintervall die Grenzen [0,82;0,86] an. Mit 95%iger 
Wahrscheinlichkeit überdeckt das Intervall den Regressionskoefhizienten 
der Grundgesamtheit. 
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Aufgaben zu Konfidenzintervallen 


1. 
2. 


Was sind Konfidenzintervalle und wozu benötigt man diese? 

Wie verändern sich Konfidenzintervalle bei: 
e Vergrößerung der Standardabweichung in der Grundgesamtheit? 
e Vergrößerung der Vertrauenswahrscheinlichkeit? 
e Vergrößerung des Stichprobenumfangs? 


. Im ALLBUS 1994 wurde bei 1.474 westdeutschen Befragten ein durch- 


schnittliches Monatseinkommen X von 1.838,39 DM ermittelt. Die 
Standardabweichung in der Stichprobe ô beträgt 1.477,68 DM. 

In welchem Bereich liegt das durchschnittliche Monatseinkommen al- 
ler westdeutschen Befragten u mit 95%iger Wahrscheinlichkeit, in wel- 
chem Bereich mit 99%iger Wahrscheinlichkeit? 

Bei der letzten Umfrage der Forschungsgruppe Wahlen vor der Bun- 
destagswahl 1994 gaben 42,5% der 1.250 Befragten eine CDU/CSU- 
Wahlabsicht an. Bitte berechnen Sie das 99%ige Konfidenzintervall für 
den Anteil der CDU/CSU unter allen Wählern, und interpretieren Sie 
das Ergebnis! 

In der gleichen Umfrage erhielt die PDS 3,5% bei den Befragten, die 
eine Wahlabsicht äußerten. Berechnen Sie auch für diese das 99%ige 
Konfidenzintervall. 

Bitte berechnen Sie, wie groß die Stichprobe der Forschungsgruppe 
Wahlen vor der Bundestagswahl 1994 hätte sein müssen, um der FDP 
mit einer Genauigkeit von 1% ihren Wähleranteil unter allen Wäh- 
lern mit 95%iger Sicherheit schätzen zu können! Verwenden Sie die 
Angaben aus Tabelle 9.1. 


12 Hypothesenprüfung 


12.1-Grundlagen: sariren nahe ei 272 
12.2 Test eines Mittelwerts `... 275 
12.3 Tests für Mittelwertdifferenzen `... 286 
12.4 x?-Test auf Unabhängigkeit .........ausi sourire urarii ririri 298 


Konfidenzintervalle zählen zu den Schätzverfahren, da mit einer Stichpro- 
be Parameter der Grundgesamtheit geschätzt werden. Ebenso wichtig ist 
die Frage, wie man Hypothesen über eine unbekannte Grundgesamtheit 
anhand einer einzigen Stichprobe testen kann. 


Die Reihe der Testverfahren ist ebenso vielfältig wie die der Schätzver- 
fahren. An dieser Stelle beschränken wir uns auf Tests für Mittelwerte, 
Mittelwertdifferenzen und den x?-Unabhängigkeitstest. 


12.1 Grundlagen 


Ausgangspunkt einer Untersuchung ist eine Hypothese, d.h. eine noch 
nicht bewährte Aussage über einen Ausschnitt der sozialen Realität. So 
könnten wir die Hypothesen aufstellen, dass Männer besser mit Zahlen 
umgehen können als Frauen oder die Bildungsbeteiligung von Kindern 
vom Bildungsniveau der Eltern abhängt. 


In der Testtheorie bezeichnet man die Hypothese, die überprüft werden 
soll, als Alternativhypothese. Diese beinhaltet die eigentlich interes- 
sierende Aussage. Möchten wir geschlechtsspezifische Unterschiede in den 
Mathematikkenntnissen prüfen, dann stellt die Aussage „Männer können 
besser mit Zahlen umgehen als Frauen“ die Alternativhypothese dar. Die 
allgemeine Bezeichnung für die Alternativhypothese ist H4, manchmal 
auch H4. 


Als Gegenstück zur Alternativhypothese wird eine Nullhypothese for- 
muliert. Sie verneint den in der Alternativhypothese behaupteten Sach- 
verhalt. Die Nullhypothese zur gerade formulierten Alternativhypothese 
würde lauten: „Männer können nicht besser mit Zahlen umgehen als Frau- 
en“. Die Nullhypothese behauptet, dass es den in der H4 ausgedrückten 
Unterschied in den numerischen Fähigkeiten von Männern und Frauen 
nicht gibt. Für die Nullhypothese wird das Kürzel Ho verwendet. 
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Der erste Schritt der Hypothesenprüfung besteht in der Formulierung der 
Alternativhypothese und der dazu konkurrierenden Nullhypothese. Sowohl 
die H4 als auch die Ho stellen Behauptungen über die Grundgesamt- 
heit dar, also beispielsweise über die Wohnbevölkerung der Bundesrepu- 
blik. 


Anhand einer Stichprobe soll nun überprüft werden, welche der beiden 
Aussagen über die Grundgesamtheit, H4 oder Ho, zutrifft. Aufgrund der 
durch Zufallsschwankungen bedingten Abweichung einer Stichprobe von 
der Grundgesamtheit kann es jedoch zu zwei Fehlentscheidungen kom- 
men. 


1. So könnten wir aufgrund der Stichprobe zu der Entscheidung gelangen, 
dass Männer besser mit Zahlen umgehen können als Frauen, obwohl in 
der Grundgesamtheit kein Unterschied in den numerischen Fähigkei- 
ten besteht. Die Stichprobendaten weisen also auf das Vorliegen der 
Alternativhypothese hin, während tatsächlich in der Grundgesamtheit 
die Nullhypothese gilt. Diesen Fehler bei Übertragung der Stichpro- 
benergebnisse auf die Grundgesamtheit nennt man Fehler 1. Art 
oder a-Fehler. Er wird als Prozentwert oder als Wahrscheinlichkeit 
ausgedrückt und auch als Irrtumswahrscheinlichkeit bezeichnet. 

2. Zum anderen könnten wir auf Basis der Stichprobe zu der Entschei- 
dung gelangen, dass geschlechtsspezifische Unterschiede im Umgang 
mit Zahlen nicht existieren, obwohl Männer tatsächlich — in der Grund- 
gesamtheit — bessere numerische Fähigkeiten haben als Frauen. Ent- 
scheiden wir uns aufgrund der Stichprobe für die Nullhypothese, ob- 
wohl in der Grundgesamtheit die Alternativhypothese vorliegt, dann 
begehen wir den Fehler 2. Art bzw. den B-Fehler. 


Die richtige Entscheidung treffen wir, wenn die aus der Stichprobe gefol- 
gerte Entscheidung mit der Grundgesamtheit übereinstimmt. In Tabel- 
le 12.1 sind alle möglichen Entscheidungen aufgeführt. 


Da wir die Grundgesamtheit nicht kennen, können wir nicht mit Sicherheit 
sagen, ob die Entscheidung auf Basis der Stichprobe richtig ist oder falsch. 
Wir können aber die Wahrscheinlichkeit des a- und 8-Fehlers berechnen. 


a-Fehler 


Um den a-Fehler berechnen zu können, müssen wir die Verteilung der 
Stichprobenkennwerte angeben, wenn in der Grundgesamtheit die Nullhy- 
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Tabelle 12.1: Fehler bei der Hypothesenprüfung 


In der 


Grundgesamtheit gilt: 


Entscheidung aufgrund richtig B-Fehler 


a-Fehler 


der Stichprobe: richtig 


pothese gilt. Durch den Zentralen Grenzwertsatz wissen wir beispielsweise, 
dass sich Mittelwerte in Stichproben normal verteilen. Der Mittelwert der 
Verteilung ist bei Gültigkeit der Ho der durch die Dn postulierte Para- 
meter. Die Breite der Mittelwerteverteilung lässt sich aus der Stichprobe 
schätzen. Ist die Wahrscheinlichkeit für einen vorliegenden Stichproben- 
kennwert oder einen noch weiter von der Ho abweichenden Kennwert ge- 
ring, so wird die Nullhypothese verworfen. 


In der Wissenschaft haben sich Grenzen eingebürgert, ab wann ein Stich- 
probenkennwert bei Gültigkeit der Ho als unwahrscheinlich einzustufen 
ist. Die Grenzen befinden sich bei a = 5% bzw. œa = 1%. Ist die Wahr- 
scheinlichkeit für den ermittelten Stichprobenkennwert bei Gültigkeit der 
Ho geringer als 5% bzw. 1%, wird die Ha abgelehnt. 


Bei dieser Entscheidung können wir uns irren. Die Wahrscheinlichkeit für 
den ermittelten Stichprobenkennwert bei Gültigkeit der Ho ist zwar ge- 
ringer als 5% bzw. 1% - wir können jedoch nicht ausschließen, dass wir 
eine sehr weit von der Grundgesamtheit abweichende Stichprobe gezogen 
haben. o gibt daher die Wahrscheinlichkeit an, mit der wir uns bei Ab- 
lehnung der Nullhypothese irren (Irrtumswahrscheinlichkeit). 


8-Fehler 


Bei der Ermittlung des B-Fehlers lautet die Frage: Wie wahrscheinlich ist 
das Stichprobenergebnis, wenn in der Grundgesamtheit die Alternativhy- 
pothese gilt? Hier ermitteln wir die Verteilung der Stichprobenkennwer- 
te bei Gültigkeit der Alternativhypothese. Ist die Wahrscheinlichkeit des 
Stichprobenkennwerts bei Gültigkeit der H4 gering, so verwerfen wir die 
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Alternativhypothese. Auch bei der Ablehnung der Alternativhypothese 
können wir uns irren, d.h. die Alternativhypothese zu Unrecht ablehnen. 
Die Wahrscheinlichkeit für unser Stichprobenergebnis oder eine noch grö- 
Bere Abweichung von der H4 gibt die Größe des 8-Fehlers an. Ein 2. Fehler 
wird als akzeptabel angesehen, wenn er kleiner als 20 % ist. 


a-Fehler und -Fehler verhalten sich gegenläufig. Je kleiner der a-Fehler, 
umso größer der B-Fehler. Je sicherer wir sein wollen, dass wir die Null- 
hypothese nicht zu Unrecht ablehnen, umso eher lehnen wir die Alterna- 
tivhypothese zu Unrecht ab. 


In der Regel wird allerdings nur versucht, die Wahrscheinlichkeit des a- 
Fehlers gering zu halten. Denn um die Kennwerteverteilung angeben zu 
können, muss man eine präzise Annahme über die Parameter der Grund- 
gesamtheit machen. Dies ist bei der Nullhypothese sehr einfach: sie besagt 
nämlich normalerweise, dass der Zusammenhang bzw. der Unterschied null 
ist. In der Alternativhypothese kommt dagegen meist nur eine unpräzise 
Annahme zum Ausdruck. So wird ein Zusammenhang postuliert, nicht 
aber, wie groß dieser Zusammenhang ist, oder ein Unterschied wird an- 
genommen, aber nicht, wie groß dieser Unterschied ist. Um den ß-Fehler 
zu testen, müssten wir im obigen Beispiel aber exakt angeben, wie groß 
der Unterschied in den numerischen Fähigkeiten von Frauen und Män- 
nern ist. Wir werden uns im Weiteren mit der Ermittlung des a-Fehlers 
beschäftigen. 


12.2 Test eines Mittelwerts 


Bei einem Hypothesentest wird in folgenden Schritten vorgegangen: 


1. Null- und Alternativhypothese formulieren und Signifikanzniveau fest- 
legen; 

2. Prüfgröße (z.B. z-Wert, t-Wert oder x?-Wert) und Verteilung der 

Prüfgröße bestimmen; 

Ablehnungsbereich der Nullhypothese kennzeichnen; 

4. Prüfgröße berechnen und die Entscheidung über die Nullhypothese 
treffen. 


Ga 


Zunächst werden diese Schritte für den Test eines Mittelwerts (bei be- 
kannter Varianz in der Grundgesamtheit o) dargestellt. 
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1. Null- und Alternativhypothese formulieren, Signifikanzniveau 
festlegen 


Wir möchten wissen, ob die Studienzeit in der Politikwissenschaft durch 
eine andere Form der Betreuung während des Studiums verändert wird, 
d.h. ob sie sich verlängert oder verkürzt. Wie diese andere Form der Be- 
treuung aussieht, interessiert uns jetzt nicht näher. Um dies zu prüfen, 
wurden für ein Pilotprojekt 35 Studierende ausgewählt, die anders be- 
treut wurden als die übrigen Studierenden. Unsere Alternativhypothese 
besagt, dass anders betreute Studierende kürzer oder auch länger studie- 
ren. Skeptiker behaupten dagegen, dass die Art der Betreuung nichts an 
der Studiendauer ändert. Die Studiendauer bei bisheriger und neuer Be- 
treuung sei identisch. Diese Behauptung beinhaltet die Nullhypothese. 


In diesem Beispiel liegt eine ungerichtete Alternativhypothese bzw. eine 
zweiseitige Fragestellung vor, da keine Aussage über die Richtung 
des Unterschieds getroffen wird. Von einer gerichteten Alternativhypothe- 
se bzw. einer einseitigen Fragestellung würde man dagegen sprechen, 
wenn etwas über die Richtung des Unterschieds ausgesagt würde. Dies 
wäre z.B. der Fall, wenn wir behaupten würden, dass im Pilotprojekt 
betreute Studierende schneller ihr Studium abschließen. Die Frage, ob es 
sich um eine gerichtete oder eine ungerichtete Hypothese bzw. eine ein- 
oder zweiseitige Fragestellung handelt, wird später für die Bestimmung 
des Ablehnungsbereiches wichtig. 


Wie wir vom Studentensekretariat erfahren haben, beträgt die durch- 
schnittliche Studiendauer im Fach Politikwissenschaft bisher im Schnitt 
13,5 Semester (jo) und die Standardabweichung 3,2 Semester (o). Die 
Angaben des Studentensekretariates sind die Parameter der Grundge- 
samtheit bei bisheriger Betreuung. Nicht bekannt ist der Mittelwert der 
Grundgesamtheit bei anderer Betreuung u. Mit der Ho und H4 werden 
nun unterschiedliche Behauptungen über den unbekannten Parameter u 
aufgestellt. 


Nach der Nullhypothese dauert das Studium anders betreuter Studieren- 
der durchschnittlich genauso lange wie bisher: 


Ho: u = jo = 135 Semester. 
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Die Alternativhypothese, dass anders betreute Studierende nicht so viel 
oder mehr Zeit als bisher zum Erwerb des Examens benötigen, kann man 
ausdrücken als: 


Ha: u # WW # 135 Semester. 


Getestet wird die Ho. Geprüft wird, ob — bei einer bestimmten Irr- 
tumswahrscheinlichkeit — das ermittelte Stichprobenergebnis (hier: durch- 
schnittliche Studiendauer 7 bei neuer Betreuung im Pilotprojekt) mit der 
Nullhypothese („wahre“ durchschnittliche Studiendauer bei anderer Be- 
treuung beträgt u = 13,5 Semester) vereinbart werden kann. Spricht das 
ermittelte Stichprobenergebnis gegen die Nullhypothese, dann verwerfen 
wir diese zugunsten der Alternativhypothese. Lässt sich das Stichproben- 
ergebnis mit der Nullhypothese vereinbaren, dann lehnen wir die Nullhy- 
pothese nicht ab. 


Ab welchem Stichprobenergebnis die Ho verworfen wird, hängt davon ab, 
welche Irrtumswahrscheinlichkeit (a-Fehler) bei der Entscheidung in Kauf 
genommen wird. Denn auch bei Gültigkeit der Ho kann — aufgrund der zu- 
fälligen Abweichung der Stichprobe von der Grundgesamtheit — ein Stich- 
probenergebnis vorkommen, das weit vom Parameter der Grundgesamt- 
heit abweicht (auch wenn dies unwahrscheinlich ist). 


In den Sozialwissenschaften ist es üblich, den a-Fehler nicht größer als 
0,05 bzw. 5% werden zu lassen. Man kann sich dann zu (mindestens) 
1- a = 0,95 bzw. 95% sicher sein, die Nullhypothese nicht fälschlicher- 
weise zu verwerfen. 1 — a gibt die Vertrauenswahrscheinlichkeit an. Wenn 
man ganz sicher gehen will, legt man die Irrtumswahrscheinlichkeit mit 
maximal 1% fest und kann sich damit zu (mindestens) 99% sicher sein, 
keinen Fehler zu begehen. Diese Grenzwerte für die Irrtumswahrscheinlich- 
keit (a-Fehler) werden auch als Signifikanzniveau bezeichnet. Die Irrtums- 
bzw. Vertrauenswahrscheinlichkeiten von 5% und 1% bzw. 95% und 99% 
werden in der Wissenschaft als ausreichend betrachtet. Ist die Irrtums- 
wahrscheinlichkeit kleiner als 5%, spricht man von einem signifikanten 
Ergebnis, ist sie kleiner als 1%, spricht man von einem sehr signifikanten 
Ergebnis. Üblicherweise kennzeichnet man bei der Darstellung von Ergeb- 
nissen die statistischen Kennwerte mit *, wenn sie signifikant sind, und 


mit **, wenn sie sehr signifikant sind. 
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Unsere Hypothese soll auf einem Signifikanzniveau von 5% getestet wer- 
den. Welches Signifikanzniveau gewählt wird, hängt von den Konsequen- 
zen ab, die mit einer falschen Entscheidung verbunden sind. 


2. Prüfgröße und Verteilung der Prüfgröße bestimmen 


Nach dem Zentralen Grenzwertsatz verteilen sich Stichprobenmittelwerte 
normal um den Mittelwert der Grundgesamtheit u mit einem Standard- 
fehler von os bei hinreichend großen Stichproben (vgl. Kapitel 10.3). Bei 
Gültigkeit der Ho (u = po = 13,5 Semester) verteilen sich die Stichpro- 
benmittelwerte normal um uo = 13,5 Semester mit dem Standardfehler 
oz = o /yn = 3,2/vV35 = 0,54. Diese Verteilung ist in Abbildung 12.1 
(durchgezogene Linie) dargestellt. 


Abbildung 12.1: Stichprobenmittelwerteverteilungen mit un = 13,5 und 
unterschiedlichen Standardfehlern oz 


Wie man Abbildung 12.1 (durchgezogene Linie) entnehmen kann, ist eine 
durchschnittliche Studiendauer von z.B. £ = 15 Semestern sehr unwahr- 
scheinlich, wenn die durchschnittliche Studiendauer in der Grundgesamt- 
heit 13,5 Semester und der Standardfehler 0,54 Semester beträgt. Erzielen 
wir in der Stichprobe einen Mittelwert 7, der weit von uo abweicht, so 
deutet dies darauf hin, dass der Stichprobenmittelwert nicht aus einer 
Grundgesamtheit stammt, in der die Nullhypothese gilt. 
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Ob eine bestimmte Abweichung Z — uo wahrscheinlich ist oder nicht, 
hängt vom Standardfehler des Mittelwerts o; ab. Wie wir wissen, wird 
az = o / y/n mit zunehmendem Stichprobenumfang n und kleiner werden- 
der Standardabweichung des Merkmals in der Grundgesamtheit o klei- 
ner, d.h. die Verteilung der Stichprobenmittelwerte wird dann schmaler. 
Die Stichprobenwerte liegen dann näher am Parameter der Grundgesamt- 
heit. In Abbildung 12.1 ist neben der Verteilung, die im Beispiel vorliegt 
(to = 13,5, oz = 0,54), eine weitere Verteilung (gestrichelte Linie) ein- 
gezeichnet, die einen größeren Standardfehler (oz = 1,1) aufweist. Eine 
durchschnittliche Studiendauer von Z = 15 Semestern (bei to = 13,5 
Semester) ist bei einem Standardfehler des Mittelwerts von 1,1 viel wahr- 
scheinlicher als bei einem Standardfehler von 0, 54. 


Bei der Berechnung der Prüfgröße wird deshalb die Abweichung des Stich- 
probenmittelwerts vom Mittelwert der Grundgesamtheit 7 — uo am Stan- 
dardfehler des Mittelwerts oz relativiert. Die Prüfgröße ist bei diesem Test 
also einfach der z-transformierte Stichprobenmittelwert g: 


z= — 2-2, (12.1) 


Die Verteilung der Prüfgröße wird auch als Testverteilung bezeichnet, da 
an ihr die A, geprüft wird. 


3. Ablehnungsbereich der Nullhypothese kennzeichnen 


Die Nullhypothese wird abgelehnt, wenn die Wahrscheinlichkeit des Stich- 
probenkennwerts (Prüfgröße) oder eines noch extremeren Ergebnisses bei 
Gültigkeit der Nullhypothese gering ist. Gering heißt: Die Wahrscheinlich- 
keit darf nicht größer als das vorgegebene Signifikanzniveau «a, also in der 
Regel 1% oder 5%, werden. Je unwahrscheinlicher der Wert einer Prüf- 
größe bei Gültigkeit der Ho, umso weiter liegt er in der Testverteilung am 
Rand. 


Bei einer zweiseitigen Fragestellung entspricht die Irrtumswahrscheinlich- 
keit a der Fläche, die an den beiden Rändern der Verteilung der Prüfgröße 
(hier: der z-Verteilung) liegt (vgl. auch Abbildung 11.2, S. 258). Je nach- 
dem, ob es sich um eine ein- oder zweiseitige Fragestellung handelt, wird 
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die Fläche entweder nur am linken/rechten Rand oder an beiden Rändern 
der Testverteilung betrachtet. 


Gesucht sind nun die zu dieser Fläche (zu einem bestimmten Signifikanz- 
niveau) gehörenden Grenzwerte der Testverteilung, die als kritische Werte 
(zweiseitige Fragestellung) bzw. als kritischer Wert (einseitige Fragestel- 
lung) bezeichnet werden. Sie grenzen den Ablehnungsbereich der Null- 
hypothese vom Nicht-Ablehnungsbereich ab. Da die Prüfgröße z stan- 
dardnormalverteilt ist, entnehmen wir die kritischen Werte der Standard- 
normalverteilung. Bei der Standardnormalverteilung bzw. z-Verteilung 
schneidet z.B. der Wert —1,65 5% der Fläche am linken Rand ab. Die 
kritischen Werte der Standardnormalverteilung sind in der Box auf der 
nächsten Seite dargestellt. 


Bei Prüfgrößen, die anders verteilt sind - z.B. vi. oder t-verteilt —, müs- 
sen die entsprechenden Verteilungen herangezogen werden. Die kritischen 
Werte für die x?- oder t-Verteilung können anhand der Tabellen in Anhang 
A ermittelt werden. 


Die kritischen Werte der Standardnormalverteilung lauten: 


e einseitige Fragestellung 


o 5% Irrtumswahrscheinlichkeit links —1,65 
Ablehnungsbereich also: —0o bis —1,65 
o 1% Irrtumswahrscheinlichkeit links — 2,33 
Ablehnungsbereich also: — 00 bis —2,33 
o 5% Irrtumswahrscheinlichkeit rechts 1,65 
Ablehnungsbereich also: 1,65 bis oo 
o 1% Irrtumswahrscheinlichkeit rechts 2,33 
Ablehnungsbereich also: 2,33 bis © 


e zweiseitige Fragestellung 


o 5% Irrtumswahrscheinlichkeit —1,96 und 1,96 
Ablehnungsbereich also: —0o bis —1,96 und 1,96 bis oo 
o 1% Irrtumswahrscheinlichkeit —2,58 und 2,58 


Ablehnungsbereich also: —oo bis —2,58 und 2,58 bis © 
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Im gewählten Beispiel liegt eine ungerichtete Alternativhypothese (u + 
io) und damit eine zweiseitige Fragestellung vor. Die Irrtumswahrschein- 
lichkeit hatten wir mit 5% angesetzt. Der Standardnormalverteilung ent- 
nehmen wir die Grenzwerte 20,095 = —1,96 und 20,975 = 1,96, d.h. nur in 
5% der Stichproben erhalten wir einen z-Wert, der kleiner als —1,96 oder 
größer als 1,96 ist. Ist die auf Basis der Stichprobe der betreuten Studie- 
renden berechnete Prüfgröße kleiner als —1,96 oder größer als 1,96, lehnen 
wir die Nullhypothese ab. Nimmt die Prüfgroße dagegen einen Wert zwi- 
schen —1,96 und 1,96 an, dann lehnen wir die Nullhypothese nicht ab. 


z>|1,96| — Hoablehnen 
z<|1,96| — Honicht ablehnen 


In Abbildung 12.2 ist der Ablehnungsbereich durch die grau schrafhierte 
Fläche dargestellt. 


Abbildung 12.2: Zweiseitiger Ablehnungsbereich (grau schraffierte Flä- 
che) bei einem Signifikanzniveau von 5% in der 
Standardnormalverteilung 


0.4-7 


024 
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4. Prüfgröße berechnen und Entscheidung über die Nullhypothese 
treffen 


Die 35 im Rahmen der Pilotstudie anders betreuten Studierenden stu- 
dierten im Durchschnitt 12 Semester, also 1,5 Semester weniger als bei 
bisheriger Betreuung. Wir berechnen nun die Prüfgröße, um angeben zu 
können, an welcher Stelle der Standardnormalverteilung der in der Stich- 
probe ermittelte £-Wert liegt: 


ge = — = y = 2,77. 
= ES 3, 
Es Rot J35 


Fällt die Prüfgröße in den Ablehnungsbereich der Nullhypothese, kann 
diese abgelehnt bzw. „verworfen“ werden. Bei Gültigkeit der Nullhypothe- 
se ist es dann sehr unwahrscheinlich, eine Stichprobe mit der beobachteten 
Prüfgröße zu erhalten. Fällt die Prüfgröße dagegen in den „Annahmebe- 
reich“, kann die Nullhypothese nicht verworfen werden. 


Da —2,77 kleiner als —1,96 ist, wird die Nullhypothese verworfen. Der in 
der Stichprobe ermittelte Wert ist damit signifikant. 


Hätten wir in der Stichprobe einen z-Wert zwischen —1,96 und 1,96 er- 
mittelt, dann würden wir die Nullhypothese nicht ablehnen. Das heißt 
jedoch nicht, dass wir dann die Nullhypothese annehmen könnten. Außer 
der Ho kommen auch andere Parameter der Grundgesamtheit als Erzeuger 
des Stichprobenmittelwerts in Frage. Genau diese Information liefern uns 
Konfidenzintervalle. 


Konfidenzintervall und Signifikanztest 


Das Konfidenzintervall für einen Stichprobenmittelwert z berechnet sich 
bei bekannter Standardabweichung in der Grundgesamtheit o nach Glei- 
chung 11.5 (vgl. Kapitel 11, S. 260). In der Stichprobe der anders betreuten 
Studierenden wurde eine durchschnittliche Studiendauer von 12 Semes- 
tern (x) festgestellt. Gefragt wird, wo die durchschnittliche Studiendauer 
u bei anderer Betreuung in der Grundgesamtheit liegt. Bei einer Vertrau- 
enswahrscheinlichkeit von 95% (bzw. einer Irrtumswahrscheinlichkeit von 
5%) resultiert 
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<u<s 12— 1,96 Sr 
i — 1,96: —— 
v35 i 


10,94 <u< 13,06. 


12 — 1,96- 


a 


Das Intervall [10,94; 13,06] überdeckt mit 95%iger Wahrscheinlichkeit die 
durchschnittliche Studiendauer in der Grundgesamtheit. Das Konfidenz- 
intervall umschließt also nicht den im Signifikanztest durch die Ho postu- 
lierten Wert von 13,5 Semestern. 


Wird die Ho in einem Signifikanztest bei einem bestimmten Signifikanzni- 
veau a abgelehnt, dann überdeckt das für eine Vertrauenswahrscheinlich- 
keit von 1— o berechnete Konfidenzintervall auch nicht den von der Ho 
postulierten Wert der Grundgesamtheit. Wissen wir auf Basis des Signi- 
fikanztests nur, dass (bei gegebener Irrtumswahrscheinlichkeit) der Stich- 
probenmittelwert (bei neuer Betreuung) von 12 Semestern nicht mit der 
Nullhypothese vereinbar ist, so gibt uns das Konfidenzintervall zusätzlich 
die Information, in welchem Bereich die durchschnittliche Studiendauer 
bei anderer Betreuung in der Grundgesamtheit (bei einer gegebenen Ver- 
trauenswahrscheinlichkeit) liegt. 


Einseitige Fragestellung 


Eine einseitige Fragestellung liegt vor, wenn die Alternativhypothese lau- 
tet, dass die neue Betreuungsform die Studienzeit verkürzt. Dem Inhalt 
der Nullhypothese entspricht dann die These, dass die Studiendauer bei 
alternativer Betreuung gleich bleibt oder zunimmt. 


Ho: u>Wo>135 und H4: p< Mo <135 


Da die Alternativhypothese eine Verkürzung der Studiendauer postuliert, 
muss der gesamte Ablehnungsbereich links liegen. Bei einer Irrtumswahr- 
scheinlichkeit von 5% ergibt sich ein kritischer Wert von z = —1, 65 (vgl. 
S. 280). Ist der in der Stichprobe ermittelte z-Wert kleiner als —1, 65, dann 
wird die Ho abgelehnt. Ist er größer als —1, 65, dann wird die Ho nicht ab- 
gelehnt (vgl. zur Kennzeichnung des Ablehnungsbereiches bei einseitiger 
Fragestellung auch die Ausführungen auf Seite 295). 
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z<-165 —> Hoablehnen 
z>-1,65 —> Honicht ablehnen 


Der Ablehnungsbereich ist in Abbildung 12.3 grau schraffiert dargestellt. 


Abbildung 12.3: Einseitiger Ablehnungsbereich (grau schraffierte Flä- 
che) bei einem Signifikanzniveau von 5% in der 
Standardnormalverteilung 


04-1 = 
0.2- ; 
077 T T T i T T T 
-4 3 2 1 0 1 2 3 4 
z-Werte 


Die Prüfgröße beträgt z = —2,77, wie wir auf S. 282 bereits berechnet 
haben. Da die Prüfgröße z = —2,77 kleiner als der kritische Wert z = 
—1,65 ist, wird die Nullhypothese verworfen. Die Studiendauer mit neuer 
Betreuung unterscheidet sich also signifikant von der Studiendauer bei 
alter Betreuung. 


Wie man an den Ablehnungsbereichen in Abbildung 12.2 und Abbildung 
12.3 sieht, liegen bei einer einseitigen Fragestellung (gerichtete Alterna- 
tivhypothese) schon geringere Abweichungen in Richtung der Alternativ- 
hypothese im Ablehnungsbereich als bei einer zweiseitigen Fragestellung 
(ungerichtete Alternativhypothese). Ob eine gerichtete oder ungerichtete 
Alternativhypothese formuliert wird, muss vor der Berechnung der Prüf- 
größe festgelegt werden. Es kann nämlich passieren, dass eine Prüfgröße bei 


Test eines Mittelwerts 285 


einseitiger Fragestellung, nicht aber bei zweiseitiger Fragestellung signifi- 
kant ist. Im Nachhinein eine gerichtete Alternativhypothese aufzustellen 
(damit eine Prüfgröße in den Ablehnungsbereich der Nullhypothese fällt 
und signifikant wird), ist nicht seriös. 


p-Werte - empirisches Signifikanzniveau 


Man kann die Irrtumswahrscheinlichkeit für den in der Stichprobe ermit- 
telten Wert der Prüfgröße auch genau bestimmen. Für die einseitige Fra- 
gestellung im Beispiel entnimmt man der 2-Tabelle die Fläche, die links 
vom Wert der Prüfgröße —2,77 liegt, nämlich ~ 0,0028. Die Wahrschein- 
lichkeit, in der Stichprobe einen 2-Wert kleiner als —2,77 zu erhalten, 
wenn in der Grundgesamtheit die Ho gilt, beträgt also 0,28%. Die Irr- 
tumswahrscheinlichkeit für die zweiseitige Fragestellung beträgt im Bei- 
spiel ~ 0,0056, da hier der Ablehnungsbereich der Nullhypothese auf bei- 
den Seiten der Verteilung liegt. Es muss also die Fläche, die links von 
— 2,77 liegt, zur Fläche, die sich rechts von +2,77 befindet, addiert wer- 
den (0, 0028 +0, 0028 = 0,0056). Die Wahrscheinlichkeit in der Stichprobe 
einen z-Wert zu erhalten, der kleiner als —2, 77 oder größer als +2, 77 ist, 
wenn in der Grundgesamtheit die Ho gilt, beträgt 0,56%. 


Diese für die Prüfgröße berechnete „empirische“ Irrtumswahrscheinlichkeit 
wird auch als p- Wert bezeichnet. Der p-Wert gibt die Wahrscheinlichkeit 
an, bei Gültigkeit der Ho den Wert der Prüfgröße oder einen mit der Ho 
noch weniger zu vereinbarenden Wert in der Stichprobe zu erhalten. Die 
meisten Statistikprogramme geben p-Werte an. Ist der p-Wert kleiner als 
das gewählte Signifikanzniveau a, dann wird die Nullhypothese verworfen, 
ist der p-Wert größer, dann wird die Nullhypothese nicht verworfen. 


p-Wert < 0,05 (bzw. 0,01) — Hoablehnen 
p-Wert > 0,05 (bzw. 0,01) — Honicht ablehnen 


Statistik-Programme geben häufig zweiseitige p-Werte an. Hier wäre dies 
p = 0,0056. Liegt eine einseitige Fragestellung vor, muss der zweiseitige 
p-Wert halbiert werden (p = 0, 0056/2 = 0,0028). 
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Test eines Mittelwerts bei unbekanntem o 


Ist die Standardabweichung der Grundgesamtheit o nicht bekannt, dann 
wird diese durch die Standardabweichung der Stichprobe ô geschätzt (vgl. 
Gleichung 11.6, S. 263), damit der Standardfehler des arithmetischen Mit- 
tels o: bestimmt werden kann. Die Prüfgröße (vgl. auch Gleichung 12.1) 
ist in diesem Fall (mit df = n-1 Freiheitsgraden) t- und nicht z-verteilt. 


(12.2) 


Da die t-Verteilung breiter als die z-Verteilung ist, sind die kritischen 
Werte hier größer. Bei großen Stichproben nähern sich die kritischen Werte 
beider Verteilungen an. Bei Stichproben kleiner als n = 30 müssen die 
Merkmale in der Grundgesamtheit normalverteilt sein. 


12.3 Tests für Mittelwertunterschiede 


Mit diesen Tests werden Hypothesen über Mittelwertunterschiede in der 
Grundgesamtheit überprüft. Eine These wäre, dass der Umgang mit Zah- 
len Männern leichter fällt als Frauen. Untersuchen können wir die These 
mit den Daten des IALS 1994, die bereits in Kapitel 7.5 verwendet wurden. 
Wir beschränken uns auch hier auf den deutschen Teil des TALS. Männer 
und Frauen können als zwei Stichproben aufgefasst werden. 


Eine wichtige Frage für die Auswahl ist, ob es sich um unabhängige oder 
abhängige Stichproben handelt. Bei unabhängigen Stichproben beeinflusst 
die Auswahl der Elemente der einen Stichprobe die Auswahl der Elemente 
der anderen Stichprobe nicht. Bei Männern und Frauen im IALS handelt 
es sich um unabhängige Stichproben, weil die Auswahl von Männern und 
Frauen unabhängig voneinander erfolgte. Bei abhängigen Stichproben be- 
einflusst die Auswahl der Elemente der einen Stichprobe die Auswahl der 
Elemente der anderen Stichprobe. Ein typisches Beispiel sind Wiederho- 
lungsmessungen. Werden Statistikkenntnisse von Studierenden vor und 
nach dem Besuch eines Statistikkurses erhoben, so liegen Messungen zu 
zwei Zeitpunkten vor. Die Auswahl der Studierenden zum Zeitpunkt 1 
(Stichprobe 1) bestimmt die Studierenden, die zum Zeitpunkt 2 unter- 
sucht werden (Stichprobe 2). Abhängige Stichproben liegen auch dann 
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vor, wenn in einer Studie Ehepaare untersucht werden. Männer und Frau- 
en einer Stichprobe von Ehepartnern können wiederum als zwei getrennte 
Stichproben behandelt werden. Männer und Frauen werden hier jedoch 
nicht unabhängig voneinander ausgewählt. Die beiden Stichproben sind 
abhängig (vgl. Kapitel 12.3.2). 


12.3.1 Test für unabhängige Stichproben 


Die Mathematikkenntnisse der im deutschen Teil des IALS befragten 938 
Männer belaufen sich auf durchschnittlich z4 = 296, 14 Punkte. Die 1124 
in Deutschland befragten Frauen erzielen durchschnittlich ze = 288,14 
Punkte. In der Stichprobe schneiden die Männer demnach etwas besser 
ab als die Frauen, mp — z2 = 296, 14 — 288,14 = 8 Punkte. Die eigentlich 
interessierende Frage ist, ob sich die Mathematikkenntnisse von Männern 
und Frauen in der Grundgesamtheit unterscheiden. 


1. Null- und Alternativhypothese formulieren, Signifikanzniveau 
festlegen 


Die Alternativhypothese H 4 postuliert in diesem Fall, dass ein Unterschied 
in den numerischen Fähigkeiten von Männern und Frauen bestehen. Mit 
der Ho behaupten wir, dass es keinen Unterschied zwischen Männern und 
Frauen gibt. Wir formulieren also eine ungerichtete Alternativhypothe- 
se. 


Ho: pm =p bzw. um <a =0 
Ha: mF#he bzw. In us #0 


Die Irrtumswahrscheinlichkeit setzen wir mit 5% fest. Die Wahrschein- 
lichkeit, die Ho abzulehnen, obwohl diese in der Grundgesamtheit gilt, 
soll maximal 5% betragen. 


2. Prüfgröße und Verteilung der Prüfgröße bestimmen 


Weil sich Stichprobenmittelwerte z nach dem Zentralen Grenzwertsatz 
normalverteilen, sind Mittelwertdifferenzen unabhängiger Stichproben 
Tı — Tə in hinreichend großen Stichproben ebenfalls normalverteilt. Der 
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Erwartungswert der Stichprobenmittelwerteverteilung ist die Mittelwert- 
differenz in der Grundgesamtheit wu — Uz, Auch hier wird vorausgesetzt, 
dass die Stichprobenumfänge nı und na hinreichend groß sind, also nı > 30 
und na > 30. Ist nı < 30 oder na < 30, dann müssen die Merkmale in 
der Grundgesamtheit normalverteilt sein, damit die Mittelwertdifferenzen 
in Stichproben normalverteilt sind. Der Standardfehler von zı — zə wird 
mit 0(@,-:,) bezeichnet. Er gibt an, wie stark die Mittelwertdifferenzen 
in Stichproben von der Mittelwertdifferenz der Grundgesamtheit abwei- 
chen. 


Auch hier ist eine konkrete Abweichung (z1 — Z2) — (H1 — H2) bei einer brei- 
ten Kennwerteverteilung (großer Standardfehler) wahrscheinlicher als bei 
einer schmalen Kennwerteverteilung (kleiner Standardfehler). Die Prüf- 
größe z standardisiert die Abweichung der Mittelwertdifferenz zı — Za von 
der durch die Ho postulierten Mittelwertdifferenz der Grundgesamtheit 
H1 — H2, indem durch den Standardfehler ous, -z,) dividiert wird. 


„ A) — m) (12.3) 


WEE 


Da bei Gültigkeit der gewählten Nullhypothese pı — u2 = 0 ist, vereinfacht 
sich die Formel zu: 


(12.4) 


Der Standardfehler der Mittelwertdifferenz o(3,_-5,) berechnet sich aus den 
Varianzen des Merkmals für beide Gruppen in der Grundgesamtheit: 


ES o2 
ae A + A : (12.5) 


Sind die Varianzen o? und o? in der Grundgesamtheit unbekannt, wer- 
den diese durch die Stichprobe geschätzt: 67 = SAQ/(nı — 1) und 


ai = SAQ/(m — 1)). 
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=2 
= (12.6) 


nı na 


Setzt man Gleichung 12.6 in Gleichung 12.4 ein, erhält man als Prüfgrö- 
Be: 


en en), (12.7) 
0 (1-52) 1,8 
DÉI na 


Da die Prüfgröße bei großen Stichproben standardnormalverteilt ist, kön- 
nen die kritischen Werte der z-Tabelle entnommen werden (vgl. dazu auch 
den Abschnitt zu t-Tests auf S. 291). 


3. Ablehnungsbereich der Nullhypothese kennzeichnen 


Bei einem Signifikanzniveau von a = 0,05 = 5%, einer zweiseitigen Frage- 
stellung und einer z-verteilten Prüfgröße müssen die beiden Werte ermit- 
telt werden, die links und rechts von der 2-Verteilung jeweils 0,025 bzw. 
2,5% der Gesamtfläche abschneiden. Aus der z-Tabelle entnimmt man für 
die untere Grenze 20,095 den Wert —1,96 und für die obere Grenze 20,975 
den Wert +1,96. Gilt die Ho, dann ist die Wahrscheinlichkeit, einen z- 
Wert in der Stichprobe kleiner als —1,96 oder größer als 1,96 zu erhalten, 
kleiner als 5%. Wir lehnen die Nullhypothese daher ab, wenn die Prüfgrö- 
ße kleiner als —1,96 oder größer als 1,96 ist. Die Nullhypothese wird nicht 
verworfen, wenn die Prüfgröße zwischen —1,96 und 1,96 liegt. 


4. Prüfgröße berechnen und Entscheidung über die Nullhypothese 
treffen 


Die aus den Stichproben geschätzte Varianz der Mathematikkenntnisse 
beträgt für Männer 67 = 2245 und für Frauen ô? = 1858. Setzt man die 
Stichprobenwerte in Gleichung 12.7 ein, dann erhält man: 


296, 14 — 288, 14 
ne = 


2245 1858 
938 t 1124 


3,98. 
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Da 3,98 größer als +1,96 ist, kann die Nullhypothese verworfen werden. 
Der Unterschied in den Mathematikkenntnissen von Männern und Frauen 
ist signifikant. Weil die Prüfgröße auch kleiner als der zu einer Irrtums- 
wahrscheinlichkeit von 1% gehörende kritische Wert von +2,58 ist, kann 
man den Unterschied auch als „sehr signifikant“ bezeichnen. Auch bei ei- 
ner Irrtumswahrscheinlichkeit von o = 0,01 lehnen wir die Nullhypothese 
ab. 


Konfidenzintervall 


Auch hier soll zum Vergleich das Konfidenzintervall berechnet werden. 
Das Konfidenzintervall für Mittelwertdifferenzen (bei hinreichend großen 
Stichproben) lässt sich ganz einfach bestimmen. 


(Z1 — Z2) — 2-2 ës aal SMHS (dı-2)+2-2 Gre, sai (12.8) 
rer Sm m 


untere Grenze obere Grenze 


Tı — beträgt + 8, der Standardfehler 5(#,-z,) wird durch Gleichung 12.6 
bestimmt. Setzt man die Werte ein, resultiert bei einem z-Wert von 1,96 
für eine Vertrauenswahrscheinlichkeit von 95% 


2245 1858 2245 1858 
N < 2 [Í 1,96 - 4| —— 
938 "ma SMTSS 8+196 SZ 


938 1124 
41 <wm-m<s 11,9. 


8-1,96- 


Das Intervall [4,1; 11,9] überdeckt mit 95 %iger Wahrscheinlichkeit die Dif- 
ferenz in den Mathematikkenntnissen von Männern und Frauen. Das Kon- 
fidenzintervall umschließt nicht den von der Nullhypothese postulierten 
Wert (m — u2 = 0). 


Statistische Signifikanz und praktische Bedeutsamkeit 


Durch den Test für Mittelwertdifferenzen wurde ein signifikanter Unter- 
schied in den Mathematikkenntnissen von Männern und Frauen festge- 
stellt. Mit hoher Wahrscheinlichkeit verfügen Männer in der Grundge- 
samtheit über bessere Fähigkeiten im Bereich Alltagsmathematik. 
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Statistische Signifikanz sollte jedoch nicht mit praktischer Bedeutsamkeit 
verwechselt werden. In Kapitel 7.5 wurde die Stärke des Zusammenhangs 
zwischen dem Geschlecht und den Kenntnissen in Alltagsmathematik mit 
7? quantifiziert. Lediglich rund 0,8% der Unterschiede in den Mathema- 
tikkenntnissen lassen sich durch das Geschlecht erklären. Zur Erklärung 
der Mathematikkenntnisse der Befragten im IALS 1994 ist das Geschlecht 
praktisch bedeutungslos. Zusammenfassend kann man beide Befunde auch 
so ausdrücken: Die etwas besseren Mathematikkenntnisse der Männer in 
der Stichprobe bestehen mit hoher Wahrscheinlichkeit auch in der Grund- 
gesamtheit (Deutschland 1994). 


Statistische Signifikanz hängt von zwei Faktoren ab: der Stärke des Ef- 
fekts und der Größe der Stichprobe. Ist die Stichprobe groß, dann ist der 
Standardfehler klein und die Kennwerteverteilung schmal. Mit sehr großen 
Stichproben lassen sich deshalb bereits geringe Unterschiede und schwa- 
che Zusammenhänge in der Grundgesamtheit nachweisen. Ein statistisch 
signifikantes Ergebnis muss also inhaltlich nicht bedeutsam sein. Umge- 
kehrt ist ein starker Zusammenhang oder Unterschied in der Stichprobe 
wenig aussagekräftig, wenn er nicht auf die Grundgesamtheit übertragen 
werden kann - also statistisch nicht signifikant ist. 


t- Tests 


Statistikprogramme führen einen exakten t- und nicht den oben angegebe- 
nen z-Test durch. Mit einem t-Test wird die Unsicherheit berücksichtigt, 
die mit der Schätzung des Standardfehlers durch die Stichprobendaten 
verbunden ist. Vor allem bei kleinen Stichproben ist dies von Bedeutung. 
Bei großen Stichproben — wie im obigen Beispiel — macht es keinen Un- 
terschied, ob die Ablehnungsbereiche anhand der t- oder der z-Verteilung 
ermittelt werden. Mit zunehmender Stichprobengröße n nähert sich die 
t-Verteilung einer z-Verteilung an. 


Bei einer t-Verteilung der Prüfgröße müssen die Freiheitsgrade bestimmt 
werden. Die Ermittlung der Freiheitsgrade bei einer t-Verteilung der Prüf- 
größe in Gleichung 12.6 ist aufwändig (vgl. Sachs 2006, 340). (Das ist 
auch der Grund, warum in Statistik-Lehrbüchern approximativ von ei- 
ner z-Verteilung ausgegangen wird). Stata ermittelt mit einem t-Test (für 
oi # 02) einen t-Wert von 3,97 bei df = 1915,79 Freiheitsgraden. Die un- 
tere Grenze des von Stata ausgegebenen 95%igen Konfidenzintervalls liegt 
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bei 4,1, die obere Grenze bei 11,9 -. Die Werte sind also fast identisch mit 
den oben berechneten. 


Statistikprogramme bieten außerdem einen t-Test für Mittelwertvergleiche 
an, wenn davon ausgegangen werden kann, dass die (unbekannten) Varian- 
zen o? und 03 in der Grundgesamtheit identisch sind. Ob in der Grundge- 
samtheit gleiche oder ungleiche Varianzen vorliegen, kann durch einen wei- 
teren Test — den F-Test — geprüft werden.' Im Beispiel wird die Annahme 
gleicher Varianzen der Mathematikkenntnisse für Männer und für Frauen 
in der Grundgesamtheit abgelehnt. Ist die Annahme gleicher Varianzen 
gerechtfertigt, dann kann ô? für beide Gruppen gemeinsam geschätzt wer- 
den (Agresti und Finlay 2008, 197). Die Ermittlung der Freiheitsgrade ist 
bei Annahme von Varianzhomogenität einfach (df = nı + na — 2). 


12.3.2 Test für abhängige Stichproben 


Ein typisches Beispiel für abhängige Stichproben sind Wiederholungsmes- 
sungen an ein und denselben Personen, wie sie z.B. vorliegen würden, 
wenn Studierende zu Beginn und zum Ende eines Statistikkurses eine 
Klausur schreiben würden. Für diese Studierenden hätte man dann je- 
weils zwei Klausurnoten, die man wiederum als zwei Stichproben auffassen 
kann - allerdings als abhängige oder gepaarte Stichproben. Bei abhängigen 
Stichproben ist jede der beiden Stichproben gleich groß, da der Wert in 
einer Stichprobe mit einem Wert aus der anderen Stichprobe verbunden 
sein muss. 


Uns interessiert, ob Statistikkurse Statistikkenntnisse verbessern. Zur 
Überprüfung der Hypothese haben wir aus allen Statistikkursen — das 
Beispiel ist erfunden — eine Zufallsstichprobe von 32 Studierenden gezo- 
gen. Zu Semesterbeginn als auch zum Abschluss des Semesters haben die 
32 zufällig ausgewählten Studierenden eine Klausur geschrieben. Als Indi- 
kator für die Kenntnisse in Statistik wird die Punktezahl in jeder Klausur 
herangezogen. Für jeden Studierenden liegt ein Paar von Messwerten vor, 
für das die Differenz d; berechnet werden kann: 


1 Ein F-Test setzt normalverteilte Merkmale in der Grundgesamtheit (!) voraus. Weil 
die Mathematikkenntnisse von Männern und Frauen in der Stichprobe näherungs- 
weise normalverteilt sind (vgl. Abbildung 7.2), kann im Beispiel eine Normalver- 
teilung in der Grundgesamtheit unterstellt werden. F-Tests sind gegenüber einer 
Verletzung der Normalverteilungsannahme nicht robust, weshalb Agresti und Fin- 
lay (2008, 200) von der Verwendung des F-Tests abraten. 
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d; = Messwert in Stichprobe 2 — Messwert in Stichprobe 1. 


i kennzeichnet dabei den Laufindex für die Paare, der im Beispiel von 
i = 1 bis i = n = 32 läuft. d; gibt hier die Differenz zwischen der Anzahl 
der Punkte in der zweiten und ersten Klausur für einen Studierenden (ein 
Paar von Messwerten) an. Diese Differenz wird für alle 32 Studierenden 
ermittelt. 


Man kann nun für diese gemessenen Differenzen d; das arithmetische Mit- 
tel Z4 berechnen und die Standardabweichung für die Grundgesamtheit ôq 
schätzen. 


Za = E (12.9) 


ôa = = (12.10) 


Das arithmetische Mittel beträgt im Beispiel 13 Punkte, die geschätzte 
Standardabweichung 6 Punkte, also zu = 13 und ou = 6. Durchschnitt- 
lich wurden in der zweiten Klausur also 13 Punkte mehr erzielt als in der 
ersten Klausur. Geprüft werden soll nun, ob aus der ermittelten durch- 
schnittlichen Differenz in der Stichprobe g4 auch auf eine durchschnittliche 
Differenz in der Grundgesamtheit pq geschlossen werden kann. 


1. Null- und Alternativhypothese formulieren, Signifikanzniveau 
festlegen 


Die Alternativhypothese lautet: „Die Statistikkenntnisse werden durch die 
Kursteilnahme verbessert.“ Als Nullhypothese formulieren wir: „Die Sta- 
tistikkenntnisse werden durch die Kursteilnahme nicht verbessert.“ „Nicht 
verbessert“ kann sowohl „gleich bleiben“ als auch „verschlechtern“ bedeu- 
ten. Die Nullhypothese gibt hier also einen Bereich an. Dies ist immer 
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der Fall, wenn die Alternativhypothese gerichtet ist, also eine einseitige 
Fragestellung vorliegt. 


Ho: Ha <0 
Ha: Ha >O 


Mit ua wird hier der Mittelwert der Differenzen in der Grundgesamtheit 
bezeichnet (im Unterschied zur Differenz der Mittelwerte pı — u beim 
Test für unabhängige Stichproben). 


Wir legen die Irrtumswahrscheinlichkeit (Signifikanzniveau) mit o = 
0,01 = 1% fest, da wir bei einer Ablehnung der Nullhypothese sehr sicher 
gehen wollen. 


Mit der formulierten Nullhypothese ua < 0 sind mehrere Verteilungen der 
Grundgesamtheit vereinbar. So könnte in Wahrheit die durchschnittliche 
Differenz ua = 0 sein, sie könnte aber auch ua = —1 sein, ta = —2 
oder a = —3,85 etc. betragen, also völlig beliebige Werte kleiner null 
annehmen. Um die kritischen Werte bestimmen zu können, benötigen wir 
aber eine konkrete Annahme über ua. Welche konkrete Annahme über die 
Grundgesamtheit bei Gültigkeit dieser Ho soll nun gemacht werden? 


Einseitiger Ablehnungsbereich 


Die Lösung des Problems ist einfach und soll ganz allgemein am Beispiel 
einer Normalverteilung veranschaulicht werden. Wir betrachten die Fläche 
am rechten Rand der Verteilung, da die Alternativhypothese im Beispiel 
ja Werte größer als null postuliert und der Ablehnungsbereich der Nullhy- 
pothese (in Größe der Irrtumswahrscheinlichkeit o) am rechten Rand der 
Verteilung liegen muss. Eine Grundgesamtheit, in der u = 0 gilt, bewirkt 
in 50% aller Stichproben einen Mittelwert größer 0. Eine Grundgesamt- 
heit dagegen, in der z.B. u = -1 gilt, produziert dagegen in 50% aller 
Stichproben einen Wert größer als —1. Dies bedeutet, dass die Wahrschein- 
lichkeit für einen Wert größer 0 bei der Grundgesamtheit mit u=0 50% 
beträgt, bei der Grundgesamtheit mit u = —1 aber geringer als 50% sein 
muss. 


Abbildung 12.4 zeigt zwei Kennwerteverteilungen, eine basierend auf der 
Annahme u = 0 (durchgezogene Linie), die andere für die Annahme 
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u = —1 (gestrichelte Linie). Die Wahrscheinlichkeit, bei u = —1 einen 
Stichprobenkennwert zu erhalten, der größer als 0 ist, entspricht genau 
der ganz dunkel schraflierten Fläche. Die ganz dunkle Fläche gibt also die 
Irrtumswahrscheinlichkeit für Werte größer und gleich null an, wenn in 
der Grundgesamtheit u = —1 gilt. Bei u = 0 entspricht die Irrtumswahr- 
scheinlichkeit für den Wert null aber der gesamten schraffierten Fläche. Die 
Irrtumswahrscheinlichkeit ist für einen gegebenen Stichprobenkennwert in 
einer Kennwerteverteilung mit u = 0 größer als für jede Kennwertevertei- 
lung in der u < 0 ist. 


Abbildung 12.4: Irrtumswahrscheinlichkeiten für den Wert 0 bei verschie- 
denen Nullhypothesen u < 0 
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Aus diesem Grund wird auch dann, wenn die Nullhypothese einen Bereich 
angibt, die Nullhypothese u = 0 getestet.” Genau dies haben wir bei dem 
einseitigen Test eines Mittelwerts bereits getan. Dort wurde tatsächlich 
die Nullhypothese u = 13,5 getestet (vgl. S.283). 


2. Prüfgröße und Verteilung der Prüfgröße bestimmen 


Bei hinreichend großen Stichproben, d.h. mehr als 30 Messwertpaaren, 
verteilen sich die arithmetischen Mittel der Differenzen aus Stichproben Za 


2 Dies gilt natürlich auch für eine Nullhypothese, die einen Wert größer oder gleich 
null (u > 0) postuliert. 
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annähernd normal um das arithmetische Mittel der Differenz der Grund- 
gesamtheit Ga mit einem Standardfehler von og 


Bei der Berechnung der Prüfgröße wird berücksichtigt, wie groß der Mit- 
telwert der Differenzen 4 in der Stichprobe im Vergleich zum Mittelwert 
der Differenzen in der Grundgesamtheit ua (bei Gültigkeit der Nullhypo- 
these) ist. Der Unterschied zwischen dem Mittelwert der Differenzen in 
der Stichprobe und der Grundgesamtheit t4 — ia muss auch hier an der 
Breite der Kennwerteverteilung, dem Standardfehler des Mittelwerts der 
Differenzen o;,, relativiert werden. Ist der Standardfehler oz, groß (z.B. 
weil der Stichprobenumfang gering ist), dann sind große Abweichungen 


Ta — Ha wahrscheinlicher als bei kleinem Standardfehler. 


Da der Standardfehler 6;, auf Basis der Stichprobe geschätzt wird, ist die 
Prüfgröße (mit df = n — 1 Freiheitsgraden) t-verteilt: 


pe a, (12.11) 


Oza 


Bei der hier gewählten Nullhypothese ua = 0, vereinfacht sich die Berech- 
nung zu: 


p=% H a (12.12) 


OTa Oza 


Der Standardfehler des arithmetischen Mittels der Differenzen oz, berech- 
net sich aus dem Stichprobenumfang n und der Standardabweichung der 
Differenzen in der Grundgesamtheit. 


Oz, = (12.13) 


Wird die Standardabweichung der Grundgesamtheit oq wie hier durch die 
Stichprobe geschätzt 64 (wobei zur Berechnung von ou die SAQ4 durch 
n — 1 Messwertpaare dividiert wird), lautet die Gleichung: 


H 
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ôr = E. (12.14) 


Der geschätzte Standardfehler des arithmetischen Mittels der Differenzen 
oO, wird nun in Gleichung 12.12 eingesetzt, womit wir die Prüfgröße be- 
rechnen können: 


Ta 
ôq ` 


Ro 


(12.15) 


3. Ablehnungsbereich der Nullhypothese kennzeichnen 


Die Prüfgröße ist mit n — 1 Freiheitsgraden t-verteilt. Die Irrtumswahr- 
scheinlichkeit wurde mit o = 0,01 = 1% festgesetzt. Da die Alterna- 
tivhypothese eine Verbesserung der Statistikkenntnisse behauptet, muss 
der gesamte Ablehnungsbereich der Nullhypothese am rechten Rand der 
t-Verteilung liegen. Wir suchen also den t-Wert, der bei einer Verteilung 
mit 31 Freiheitsgraden am rechten Ende der Verteilung 0,01 der Fläche 
abschneidet. In der t-Tabelle im Anhang sind im Kopf der Tabelle die 
Flächen, die links von den t-Werten liegen. 


Die kritische Grenze lesen wir daher bei einem 1 %igen Signifikanzniveau 
an der Stelle o om a ab. Aus der t-Tabelle entnehmen wir für df = 30 
(da die Werte für eine Verteilung mit df = 31 in der Tabelle nicht vorlie- 
gen) in der Spalte (1 — a) = 0,99 den Wert 2,457. Die Wahrscheinlichkeit 
bei Gültigkeit der Ho t-Werte zu erhalten, die größer als 2,46 sind, ist klei- 
ner als 1%. Solche Abweichungen sind bei Gültigkeit der Nullhypothese 
also sehr unwahrscheinlich. 


Wir lehnen die Nullhypothese daher ab, wenn die Prüfgröße größer als 2,46 
ist. Die Nullhypothese wird angenommen, wenn die Prüfgröße kleiner als 
2,46 ist. 


t>2,46 —> Houablehnen 
t<2,46 —>  Honicht ablehnen 
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4. Prüfgröße berechnen und Entscheidung über die Nullhypothese 
treffen 


Beim Einsetzen der Werte resultiert: 


za 13 
EECH 


Da 12,26 größer als 2,46 ist, kann die Nullhypothese verworfen werden. Die 
Verbesserung in der Statistikklausur durch den Besuch des Statistikkurses 
um durchschnittlich 13 Punkte ist hochsignifikant. 


12.4 x?-Test auf Unabhängigkeit 


Ein Test für die Unabhängigkeit von zwei diskreten Merkmalen ist der x?- 
Unabhängigkeitstest.” Die Prüfgröße dieses Tests ist das Maß x?, das wir 
in Kapitel 7.3.1 eingeführt haben. Mit dem x?-Unabhängigkeitstest wird 
geprüft, ob zwei Merkmale in der Grundgesamtheit unabhängig sind. 


Untersucht werden soll der Zusammenhang zwischen dem Geschlecht und 
der Einstellung zum Schwangerschaftsabbruch. Im ALLBUS 1996 wur- 
den zum Schwangerschaftsabbruch eine Reihe von Fragen gestellt. Gefragt 
wurde unter anderem, ob es gesetzlich möglich oder nicht möglich sein soll- 
te, dass eine Frau einen Schwangerschaftsabbruch vornehmen lässt, unab- 
hängig davon, welche Gründe sie hat. Das folgende Beispiel beschränkt 
sich auf Westdeutschland. 


1. Null- und Alternativhypothese formulieren, Signifikanzniveau 
festlegen 


Wie bei jedem Test werden zunächst Hypothesen über die Grundgesamt- 
heit - im Beispiel also Westdeutschland — aufgestellt. Wir vermuten, dass 
Frauen eher als Männer der Meinung sind, ein Schwangerschaftsabbruch 
solle legal sein. Dies ist die Alternativhypothese H 4, die einen Zusammen- 
hang zwischen den beiden Merkmalen Geschlecht und Einstellung zum 


3 Der hier behandelte x?-Test ist ein Test für unabhängige Stichproben. Bei abhän- 
gigen Stichproben müssen andere Verfahren angewendet werden. 
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Schwangerschaftsabbruch postuliert. Die Behauptung, dass kein Zusam- 
menhang zwischen dem Geschlecht und der Einstellung zum Schwanger- 
schaftsabbruch existiert, entspricht dem Inhalt der Nullhypothese. Die Ho 
lautet also, dass ein Zusammenhang zwischen beiden Merkmalen in der 
Grundgesamtheit nicht existiert. 


Ho: Die Merkmale sind statistisch unabhängig. 
Ha: Die Merkmale sind statistisch abhängig. 


Die Nullhypothese soll auf einem Signifikanzniveau von 5% getestet wer- 
den. 


2. Prüfgröße und Verteilung der Prüfgröße bestimmen 


Wir haben in Kapitel 7.1 gesehen, dass bei statistischer Unabhängigkeit 
die prozentuale Verteilung des abhängigen Merkmals für jede Ausprägung 
des unabhängigen Merkmals identisch ist. Die bei statistischer Unabhän- 
gigkeit erwarteten Häufigkeiten JL. lassen sich nach Gleichung 7.1 
(S. 144) ermitteln: 


Zeilensumme - Spaltensumme 


Jets) = (12.16) 


n 


Die Tabelle, die die erwarteten Häufigkeiten beinhaltet, wird als Indif- 
ferenztabelle bezeichnet. Bei einem x?-Test werden die erwarteten Häu- 
figkeiten mit den in der Stichprobe beobachteten Häufigkeiten Ju 
verglichen. 


Je größer die Differenz zwischen beobachteten und erwarteten Werten 
Juan — Lu, umso stärker weichen die beobachteten Häufigkeiten vom 
Modell statistischer Unabhängigkeit ab. Da die Summe der einfachen Dif- 
ferenzen für alle Zellen null ist, werden die Differenzen quadriert. Größere 
Abweichungen werden hierdurch stärker gewichtet als kleine. Die quadrier- 
te Abweichung in einer Zelle (fun — Sein)” wird außerdem durch die 
erwartete Häufigkeit LA dividiert, da eine bestimmte Abweichung bei 
einer kleinen erwarteten Häufigkeit stärker ins Gewicht fällt als bei einer 
großen. 
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Zur Berechnung von x? (Prüfgröße) werden die quadrierten und relativier- 
ten Abweichungen aller Zellen addiert (vgl. Gleichung 7.8). 


l m 


ern ua Zu (12.17) 


i=1 j=1 
x? nimmt den Wert null an, wenn beobachtete und erwartete Häufigkeiten 
in allen Zellen übereinstimmen. Es wird umso größer, je weiter beobachtete 
und erwartete Häufigkeiten auseinanderfallen. 


Auch wenn beide Merkmale in der Grundgesamtheit statistisch unabhän- 
gig sind, kann man - aufgrund zufälliger Abweichungen der Stichprobe von 
der Grundgesamtheit — nicht davon ausgehen, dass der für eine Stichprobe 
ermittelte x?-Wert exakt null ist. Die x?-Verteilung gibt die Wahrschein- 
lichkeit von x?-Werten bei gegebenen df in Stichproben an, wenn in der 
Grundgesamtheit die Nullhypothese gilt. 


x?-Verteilung 


Die x?-Verteilung ist im Gegensatz zur z- und t-Verteilung keine sym- 
metrische Verteilung. Ihre Form und Lage ist abhängig von der Zahl der 
Freiheitsgrade (df). Wie man in Abbildung 12.5 sieht, verschiebt sich 
die Verteilung mit zunehmenden Freiheitsgraden auf der x-Achse weiter 
nach rechts. Der Mittelwert der x?-Verteilung entspricht der Zahl der Frei- 
heitsgrade (df), während die Varianz sich aus 2 - df ergibt. 


Die Freiheitsgrade werden bei einem x?-Unabhängigkeitstest aus der Zahl 
der Spalten und der Zahl der Zeilen berechnet. 


df = (Zahl der Zeilen — 1) - (Zahl der Spalten — 1) (12.18) 


Der x?-Wert einer Tabelle mit 5 Zeilen und 4 Spalten hat also (5 — 1) - 
(4 — 1) = 12 Freiheitsgrade. Die Freiheitsgrade geben an, wie viele der 
Zelleninhalte einer Tabelle (bei gegebener Randverteilung) frei variieren 
können, bevor die anderen Zelleninhalte festgelegt sind. In einer 2 x 2- 
Tabelle kann (2 — 1) - (2-1) = 1 Zelleninhalt frei variieren. Legt man 
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Abbildung 12.5: x?-Verteilung für verschiedene Freiheitsgrade 
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einen Zelleninhalt fest, dann können bei einer 2 x 2-Tabelle alle anderen 
Zellhäufigkeiten als Differenz zu den Randhäufigkeiten ermittelt werden. 


Die Prüfgröße ist allerdings nur dann y?-verteilt, wenn die erwarteten 
Häufigkeiten Luc in den Zellen groß genug sind. Als Faustregel wird an- 
gegeben, dass die erwartete Häufigkeit feaj) in jeder Zelle größer 
als fünf ist. Ist dies nicht der Fall, dann können - sofern dies sinnvoll 
erscheint — Kategorien zusammengefasst werden, bevor der Test durchge- 
führt wird. Ansonsten sollte ein Test für kleine Zellbesetzungen verwendet 
werden (vgl. Agresti 1996, S. 39-45). 


3. Ablehnungsbereich der Nullhypothese kennzeichnen 


Bei einem x?-Test ist die Frage, wie wahrscheinlich der beobachtete oder 
ein noch größerer x?-Wert bei Gültigkeit der Nullhypothese ist. Der Ab- 
lehnungsbereich befindet sich immer am rechten Ende der Verteilung. Ge- 
sucht wird also der x?-Wert, der am rechten Rand eine Fläche der Größe 
o abschneidet. Links vom gesuchten Wert liegt 1— a der Fläche. 


Der x?-Tabelle entnehmen wir für ein Signifikanzniveau von o = 0,05 bei 
einer Verteilung mit einem Freiheitsgrad in der Spalte „0,95“ (1 — ol den 
x’-Wert 3,84. Gilt in der Grundgesamtheit die Nullhypothese, dann sind 
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x-Werte größer als 3,84 unwahrscheinlicher als 5%. Die Nullhypothese 
lehnen wir bei einem Signifikanzniveau von 5% und einer Verteilung mit 
einem Freiheitsgrad also ab, wenn in der Stichprobe ein x?-Wert größer als 
3,84 ermittelt wird. Wir lehnen die Nullhypothese nicht ab, wenn der x?- 
Wert der Stichprobe kleiner oder gleich 3,84 ist. Der Ablehnungsbereich 
ist in Abbildung 12.6 grau schrafhiert. 


Abbildung 12.6: Ablehnungsbereich in einer x?-Verteilung mit df = 1 bei 
einem Signifikanzniveau von 5% 
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x>3,84 —  Hyablehnen 
X? <3,84 —  Honicht ablehnen 


4. Prüfgröße berechnen und Entscheidung über die Nullhypothese 
treffen 


Tabelle 12.2 gibt den Zusammenhang zwischen dem Geschlecht und der 
Einstellung zum Schwangerschaftsabbruch bei den westdeutschen Befrag- 
ten wieder. 35,6% (377 von 1058) der Männer und 37,2% (397 von 1067) 
der Frauen geben an, dass der Schwangerschaftsabbruch unabhängig von 
den Motiven einer Frau legal sein sollte. In ihrer Einstellung zum Schwan- 
gerschaftsabbruch unterscheiden sich Männer und Frauen in der Stich- 
probe also nur geringfügig. Mit dem x?-Test wird nun geprüft, ob beide 
Merkmale in der Grundgesamtheit unabhängig sind. 
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Tabelle 12.2: Kontingenztabelle — Einstellung zum Schwangerschaftsab- 
bruch und Geschlecht 


sollte legal sein 377 397 774 
sollte nicht legal sein 681 670 1351 


ve wel 20 


Quelle: ALLBUS 1996, westdeutsche Befragte 


In Tabelle 12.3 sind die erwarteten Häufigkeiten wiedergegeben, die sich 
nach Gleichung 12.16 (S. 2001 berechnen. Bei statistischer Unabhängigkeit 
beider Merkmale müssten 36,4% (385,4 von 1058) der Frauen und 36,4% 
(388,6 von 1067) der Männer die Meinung vertreten, ein Schwangerschafts- 
abbruch solle ohne Angaben von Gründen legal sein. 


Tabelle 12.3: Indifferenztabelle — Einstellung zum Schwangerschaftsab- 
bruch und Geschlecht 


sollte legal sein 385,4 388.6 774 
sollte nicht legal sein 672,6 678,4 1351 


1056 1067 | 2135 


Quelle: ALLBUS 1996, westdeutsche Befragte 


In unserem Beispiel weichen die in der Stichprobe beobachteten Häufig- 
keiten nicht scht weit von den erwarteten Häufigkeiten ab. x? berechnet 
sich nach Gleichung 12.17: 


, (877 - 385,4)? (397 — 388,6)? (681 — 672,6)? (670 — 678,4)? 
385,4 388,6 672,6 678,4 


Da der empirisch ermittelte x?-Wert von 0,568 kleiner als der kritische 
x>-Wert von 3,84 ist, wird die Nullhypothese nicht verworfen. Bei Gül- 
tigkeit der Nullhypothese (und df = 1) ist die Wahrscheinlichkeit sehr 
groß, in einer Stichprobe einen x?-Wert von 0,568 oder größer zu erhalten 
(vgl. Abbildung 12.6). Stata ermittelt einen p-Wert von 0,45 = 45%. Die 
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Wahrscheinlichkeit, bei Gültigkeit der Ho (und df = 1) in einer Stichprobe 
einen x--Wert größer als 0,568 zu erhalten, beträgt 45%. 


Zu beachten ist, dass mit dem x?-Test zwar die statistische Unabhängig- 
keit von zwei Merkmalen in der Grundgesamtheit überprüft werden kann, 
nicht aber, wie stark der Zusammenhang ist. Wie wir wissen (vgl. Kapi- 
tel 7) ist die Größe des x?-Werts — bei gleicher prozentualer Verteilung — 
direkt proportional zur Stichprobengröße. 


Ein angemessenes Zusammenhangsmaß für zwei nominalskalierte Merk- 
male ist z.B. Cramérs V (vgl. Gleichung 7.11, $.151). 


0, 568 


C ra É rs V = ee 
KE 2125. 2—1) 


= 0,016 


Die Stärke des Zusammenhangs zwischen dem Geschlecht und der Ein- 
stellung zum Schwangerschaftsabbruch ist nahe null. 


An diesem Beispiel lässt sich die Bedeutung des Stichprobenumfangs für 
die Signifikanz veranschaulichen: Bei einer Verzehnfachung der Zellhäu- 
figkeiten von Tabelle 12.2 resultiert ein zehnfach größerer x?-Wert, näm- 
lich 5, 68, bei gleicher Zahl der Freiheitsgrade. Dieser Wert wäre auf dem 
5%-Niveau statistisch signifikant, da er größer als 3,84 ist. Da sich die 
Proportionen nicht geändert haben, beträgt Cramers V auch hier 0, 016. 
Der Unterschied zwischen Männern und Frauen in der Einstellung zum 
Schwangerschaftsabbruch wäre also immer noch inhaltlich nicht bedeut- 
sam. 


Zusammenfassung 


In diesem Kapitel wurden einführend grundlegende Testverfahren vorge- 
stellt. Auch für andere Stichprobenkennwerte — wie Zusammenhangsmaße 
oder Regressionskoeffizienten — existieren statistische Tests. Die Prüfgröße 
gibt häufig die Abweichung des Punktschätzers vom Parameter der Ho in 
Standardfehlern an, wie wir gesehen haben: 


Punktschätzer — Parameter bei Gültigkeit der Ho 


Prüfgröße = Standardfehler des Punktschätzers 
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Zur Illustration soll auch hier wieder auf die Regression aus Kapitel 8 
zurückgegriffen werden. Der durch die Stichprobe (n = 2062) errechnete 
Regressionskoeffizient der Lesefähigkeit b beträgt 0,84. b ist der Punkt- 
schätzer für den Regressionskoeffizient der Grundgesamtheit ß. Getestet 
werden soll, ob die Lesekenntnisse zur Prognose der Mathematikkenntnis- 
se geeignet sind (H4 : 8 #0). Die Nullhypothese postuliert hier, dass der 
Regressionskoeffizient der Grundgesamtheit 8 gleich null ist, Ho : 8 = 0. 
Stata gibt den Standardfehler des Regressionskoeffizienten mit o = 0,01 
an. Die Prüfgröße berechnet sich nach 


b-3 0,84-0 
t = —— = ———— = 84. 12.19 
Ôp 0,01 ( ) 


Diese Prüfgröße ist mit df = n — 2 = 2062 — 2 t-verteilt. Bei df = 2060 
kann die z-Verteilung herangezogen werden. Bei einer 5%igen Irrtums- 
wahrscheinlichkeit (zweiseitige Fragestellung) wird die Hypothese abge- 
lehnt, wenn z > |1,96|. Da 84 größer als 1,96 ist, lehnen wir die Hu ab. 
Das Konfidenzintervall wurde in Kapitel 11 (S. 270) berechnet. Es bein- 
haltet nicht den Wert der Nullhypothese. 
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Aufgaben zu Hypothesenprüfung 


1. Wozu benötigt man Testverfahren? 

2. Ein Bekannter von Ihnen stellt die Behauptung auf, dass Arbeitslose 

in Ostdeutschland durchschnittlich nicht länger als ein Jahr (maximal 
52 Wochen) arbeitslos seien. Aufgrund der Arbeitsmarktsituation in 
Ostdeutschland vermuten Sie jedoch, dass die durchschnittliche Dauer 
der Arbeitslosigkeit über einem Jahr liegt. Ihre Behauptung stellt die 
Alternativhypothese dar (mehr als 52 Wochen). 
Im ALLBUS 1998 wurde die Dauer der Arbeitslosigkeit in Wochen 
erfasst. Durchschnittlich waren die 144 ostdeutschen Befragten, die 
Arbeitslosigkeit angaben, seit 67,7 Wochen (= 7) arbeitslos. Die Stan- 
dardabweichung der Grundgesamtheit wird durch die Stichprobe ge- 
schätzt und beträgt © = 61,5 Wochen. 

a) Prüfen Sie auf Basis der ALLBUS-Daten auf einem Signifikanzni- 
veau von 5%, ob die durchschnittliche Dauer der Arbeitslosigkeit 
nicht mehr als ein Jahr, also 52 Wochen, beträgt. 

b) Berechnen Sie ein 95%iges Konfidenzintervall und interpretieren 
Sie dieses. 


3. Sie möchten für Westdeutschland untersuchen, ob sich Frauen und 

Männer ideologisch unterscheiden. Als Indikator für die politische 
Ideologie ziehen Sie die Links-Rechts-Skala heran, die im ALLBUS 
1998 enthalten ist. Auf einer zehnstufigen Skala konnten die Befrag- 
ten sich von 1 (ganz links) bis 10 (ganz rechts) einordnen. Wir unter- 
stellen, dass die Links-Rechts-Skala intervallskaliert ist, zwischen den 
Skalenpunkten also gleiche Abstände bestehen. 
Für die 1.083 Frauen (nı) wurde ein durchschnittlicher Skalenwert von 
zı = 5,06 bei einer Standardabweichung ou = 1,58 Skalenpunkten 
ermittelt; für die 987 Männer (ns) wurde ein durchschnittlicher Ska- 
lenwert von Za = 5,25 und eine Standardabweichung von ô> = 1,74 
Skalenpunkten berechnet. 

a) Formulieren Sie die Null- und Alternativhypothese. Prüfen Sie mit 
einem 2-Test für Mittelwertunterschiede, ob der Unterschied in der 
ideologischen Selbsteinstufung von Männern und Frauen (£ —-Xa = 
0, 19) statistisch signifikant ist. Legen Sie ein Signifikanzniveau von 
1% zugrunde. 

b) Berechnen Sie außerdem das Konfidenzintervall für die Differenz 
der Mittelwerte für eine Vertrauenswahrscheinlichkeit von 99%. In 
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welchem Bereich liegt der „wahre“ Unterschied zwischen Männern 
und Frauen? 
c) Berechnen Sie ut 


4. Bitte prüfen Sie mit Hilfe des x?-Tests, ob der auf Seite 175 darge- 
stellte Zusammenhang zwischen der Konfessionszugehörigkeit und der 
Wahlabsicht auf einem Signifikanzniveau von a = 0,05 signifikant ist. 

5. Sie haben einen Signifikanztest durchgeführt. Ein Statistik-Programm 
gibt einen p-Wert von 0,02 an. 

a) Welche Entscheidung treffen Sie bei einem Signifikanzniveau von 
a = 0,05? Wenn die Entscheidung falsch ist — welchen Fehler be- 
gehen Sie? 

b) Welche Entscheidung treffen Sie bei einem Signifikanzniveau von 
a = 0,01? Wenn die Entscheidung falsch ist — welchen Fehler be- 
gehen Sie? 


Anhang A 


Tabellen zur Berechnung der Fläche unter den Wahr- 
scheinlichkeitsverteilungen 


z-Verteilung 


z-Wert D 2 -3 


o 
2 
DO 
Ke 


-2,9. || 0,0019 | 0,0018 | 0,0018 | 0,0017 | 0,0016 | 0,0016 | 0,0015 | 0,0015 | 0,0014 | 0,0014 


4 
-2,8. || 0,0026 | 0,0025 | 0,0024 | 0,0023 | 0,0023 | 0,0022 | 0,0021 | 0,0021 | 0,0020 | 0,0019 
-2,7. || 0,0035 | 0,0034 | 0,0033 | 0,0032 | 0,0031 | 0,0030 | 0,0029 | 0,0028 | 0,0027 | 0,0026 
-2,6. || 0,0047 | 0,0045 | 0,0044 | 0,0043 | 0,0041 | 0,0040 | 0,0039 | 0,0038 | 0,0037 | 0,0036 
-2,5. || 0,0062 | 0,0060 | 0,0059 | 0,0057 | 0,0055 | 0,0054 | 0,0052 | 0,0051 | 0,0049 | 0,0048 
-2,4. || 0,0082 | 0,0080 | 0,0078 | 0,0075 | 0,0073 | 0,0071 | 0,0069 | 0,0068 | 0,0066 | 0,0064 
-2,3. || 0,0107 | 0,0104 | 0,0102 | 0,0099 | 0,0096 | 0,0094 | 0,0091 | 0,0089 | 0,0087 | 0,0084 
-2,2. || 0,0139 | 0,0136 | 0,0132 | 0,0129 | 0,0125 | 0,0122 | 0,0119 | 0,0116 | 0,0113 | 0,0110 
-2,1. || 0,0179 | 0,0174 | 0,0170 | 0,0166 | 0,0162 | 0,0158 | 0,0154 | 0,0150 | 0,0146 | 0,0143 
7 | 0,0212 | 0,0207 | 0,0202 | 0,0197 | 0,0192 | 0,0188 | 0,0183 
4 | 0,0268 | 0,0262 | 0,0256 | 0,0250 | 0,0244 | 0,0239 | 0,0233 
4 | 0,0336 | 0,0329 | 0,0322 | 0,0314 | 0,0307 | 0,0301 | 0,0294 
7 | 0,0418 | 0,0409 | 0,0401 | 0,0392 | 0,0384 | 0,0375 | 0,0367 
0,0548 | 0,0537 | 0,0526 | 0,0516 | 0,0505 | 0,0495 | 0,0485 | 0,0475 | 0,0465 | 0,0455 

3 

8 

4 

2 

4 


0,0630 | 0,0618 | 0,0606 | 0,0594 | 0,0582 | 0,0571 | 0,0559 


4 | 0,0749 | 0,0735 | 0,0721 | 0,0708 | 0,0694 | 0,0681 
0,0918 | 0,0901 | 0,0885 | 0,0869 | 0,0853 | 0,0838 | 0,0823 

3 | 0,1075 | 0,1056 | 0,1038 | 0,1020 | 0,1003 | 0,0985 

2 | 0,1271 | 0,1251 | 0,1230 | 0,1210 | 0,1190 | 0,1170 
-1,0. || 0,1587 | 0,1562 | 0,1539 | 0,1515 | 0,1492 | 0,1469 | 0,1446 | 0,1423 | 0,1401 | 0,1379 
-0,9. || 0,1841 | 0,1814 | 0,1788 | 0,1762 | 0,1736 | 0,1711 | 0,1685 | 0,1660 | 0,1635 | 0,1611 
-0,8. || 0,2119 | 0,2090 | 0,2061 | 0,2033 | 0,2005 | 0,1977 | 0,1949 | 0,1922 | 0,1894 | 0,1867 
-0,7. || 0,2420 | 0,2389 | 0,2358 | 0,2327 | 0,2296 | 0,2266 | 0,2236 | 0,2206 | 0,2177 | 0,2148 
-0,6. || 0,2743 | 0,2709 | 0,2676 | 0,2643 | 0,2611 | 0,2578 | 0,2546 | 0,2514 | 0,2483 | 0,2451 
-0,5. || 0,3085 | 0,3050 | 0,3015 | 0,2981 | 0,2946 | 0,2912 | 0,2877 | 0,2843 | 0,2810 | 0,2776 
-0,4. || 0,3446 | 0,3409 | 0,3372 | 0,3336 | 0,3300 | 0,3264 | 0,3228 | 0,3192 | 0,3156 | 0,3121 
-0,3. || 0,3821 | 0,3783 | 0,3745 | 0,3707 | 0,3669 | 0,3632 | 0,3594 | 0,3557 | 0,3520 | 0,3483 
-0,2. || 0,4207 | 0,4168 | 0,4129 | 0,4090 | 0,4052 | 0,4013 | 0,3974 | 0,3936 | 0,3897 | 0,3859 
-0,1. || 0,4602 | 0,4562 | 0,4522 | 0,4483 | 0,4443 | 0,4404 | 0,4364 | 0,4325 | 0,4286 | 0,4247 
-0,0. || 0,5000 | 0,4960 | 0,4920 | 0,4880 | 0,4840 | 0,4801 | 0,4761 | 0,4721 | 0,4681 | 0,4641 


U. W. Gehring, C. Weins, Grundkurs Statistik für Politologen und Soziologen, 
DOI 10.1007/978-3-531-91879-2, 
© VS Verlag für Sozialwissenschaften | GWV Fachverlage GmbH, Wiesbaden 2009 


Tabellen zur Flächenberechnung 


(Fortsetzung z-Verteilung) 


Lesehilfe: Gesucht sei der Flächenantei 


steht für al 
kann man 


Gesucht sei ferner der z-Wert, der linksseitig 2,5% der Fläche abschneidet. Der Wert, der nun innerhalb 


0,8159 
0,8413 
0,8643 
0,8849 
0,9032 
0,9192 
0,9332 
0,9452 
0,9554 
0,9641 
0,9713 
0,9772 
0,9821 
0,9861 
0,9893 
0,9918 
0,9938 
0,9953 
0,9965 
0,9974 
0,9981 


0,5040 
0,5438 
0,5832 
0,6217 
0,6591 
0,6950 
0,7291 
0,7611 
0,7910 
0,8186 
0,8438 
0,8665 
0,8869 
0,9049 
0,9207 
0,9345 
0,9463 
0,9564 
0,9649 
0,9719 
0,9778 
0,9826 
0,9864 
0,9896 
0,9920 
0,9940 
0,9955 
0,9966 
0,9975 
0,9982 


0,5080 
0,5478 
0,5871 
0,6255 
0,6628 
0,6985 
0,7324 
0,7642 
0,7939 
0,8212 
0,8461 
0,8686 
0,8888 
0,9066 
0,9222 
0,9357 
0,9474 
0,9573 
0,9656 
0,9726 
0,9783 
0,9830 
0,9868 
0,9898 
0,9922 
0,9941 
0,9956 
0,9967 
0,9976 
0,9982 


0,5120 
0,5517 
0,5910 
0,6293 
0,6664 
0,7019 
0,7357 
0,7673 
0,7967 
0,8238 
0,8485 
0,8708 
0,8907 
0,9082 
0,9236 
0,9370 
0,9484 
0,9582 
0,9664 
0,9732 
0,9788 
0,9834 
0,987 
0,990 
0,9925 
0,9943 
0,9957 
0,9968 
0,9977 
0,9983 


, der zwischen —oo und dem Wert z = 1,96 liegt. In der Spalte 
„2-Wert“ am linken Rand der Tabelle sucht man zunächst die Zeile mit dem Wert „1,9.“ (Der Punkt 
e Ziffern von 0 bis 9). Dann sucht man in dieser Zeile die Spalte mit dem Wert „6“. Dort 
er Tabelle den Flächenanteil „0,9750“ entnehmen, also 97,5%. 


0,5160 
0,5557 
0,5948 
0,6331 
0,6700 
0,7054 
0,7389 
0,7703 
0,7995 
0,8264 
0,8508 
0,8729 
0,8925 
0,9099 
0,9251 
0,9382 
0,9495 
0,9591 
0,9671 
0,9738 
0,9793 
0,9838 
0,9875 
0,9904 
0,9927 
0,9945 
0,9959 
0,9969 
0,9977 
0,9984 


0,5199 
0,5596 
0,5987 
0,6368 
0,6736 
0,7088 
0,7422 
0,7734 
0,8023 
0,8289 
0,853 
0,8749 
0,8944 
0,9115 
0,9265 
0,9394 
0,9505 
0,9599 
0,9678 
0,9744 
0,9798 
0,9842 
0,9878 
0,9906 
0,9929 
0,9946 
0,9960 
0,9970 
0,9978 
0,9984 


0,5239 
0,5636 
0,6026 
0,6406 
0,6772 
0,7123 
0,7454 
0,7764 
0,805 
0,8315 
0,8554 
0,8770 
0,8962 
0,913 
0,9279 
0,9406 
0,9515 
0,9608 
0,9686 
0,9750 
0,9803 
0,9846 
0,9881 
0,9909 
0,9931 
0,9948 
0,9961 
0,9971 
0,9979 
0,9985 


0,5279 
0,5675 
0,6064 
0,6443 
0,6808 
0,7157 
0,7486 
0,7794 
0,8078 
0,8340 
0,8577 
0,8790 
0,8980 
0,9147 
0,9292 
0,9418 
0,9525 
0,9616 
0,9693 
0,9756 
0,9808 
0,9850 
0,9884 
0,9911 
0,9932 
0,9949 
0,9962 
0,9972 
0,9979 
0,9985 


0,5319 
0,5714 
0,6103 
0,6480 
0,6844 
0,7190 
0,7517 
0,7823 
0,8106 
0,8365 
0,8599 
0,8810 
0,8997 
0,9162 
0,9306 
0,9429 
0,9535 
0,9625 
0,9699 
0,9761 
0,9812 
0,9854 
0,9887 
0,9913 
0,9934 
0,9951 
0,9963 
0,9973 
0,9980 
0,9986 
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0,5359 
0,5753 
0,6141 
0,6517 
0,6879 
0,7224 
0,7549 
0,7852 
0,8133 
0,8389 
0,8621 
0,8830 
0,9015 
0,9177 
0,9319 
0,9441 
0,9545 
0,9633 
0,9706 
0,9767 
0,9817 
0,9857 
0,9890 
0,9916 
0,9936 
0,9952 
0,9964 
0,9974 
0,998 

0,9986 


der Tabelle zu suchen ist, beträgt „0,0250“ Man findet ihn in der Zeile „—1,9.“ und der Spalte „.6“. 
Also teilt der z-Wert —1,96 linksseitig 2,5% der Fläche ab. 
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t-Verteilung 


Anhang A 


df 


D e Go H ka Om D AG DG Co ro 


O Do A E 


o oe A e o Hä hb NM 
e Oe OO Oo Gë H ta CG 


100 
150 
200 
500 
1000 
z-Wert 


Fläche (1- a) 


0,65 


0,510 
0,445 
0,424 
0,414 
0,408 
0,404 
0,402 
0,399 
0,398 
0,397 
0,396 
0,395 
0,394 
0,393 
0,393 
0,392 
0,392 
0,392 
0,391 
0,391 
0,391 
0,390 
0,390 
0,390 
0,390 
0,389 
0,388 
0,388 
0,387 
0,387 
0,387 
0,387 
0,386 
0,386 
0,386 
0,386 
0,385 
0,385 


0,7 | 0,75 
0,727 | 1,000 
0,617 | 0,816 
0,584 | 0,765 
0,569 | 0,741 
0,559 | 0,727 
0,553 | 0,718 
0,549 | 0,711 
0,546 | 0,706 
0,543 | 0,703 
0,542 | 0,700 
0,540 | 0,697 
0,539 | 0,695 
0,538 | 0,694 
0,537 | 0,692 
0,536 | 0,691 
0,535 | 0,690 
0,534 | 0,689 
0,534 | 0,688 
0,533 | 0,688 
0,533 | 0,687 
0,532 | 0,686 
0,532 | 0,686 
0,532 | 0,685 
0,531 | 0,685 
0,531 | 0,684 
0,530 | 0,683 
0,529 | 0,681 
0,528 | 0,679 
0,527 | 0,679 
0,527 | 0,678 
0,526 | 0,678 
0,526 | 0,677 
0,526 | 0,677 
0,526 | 0,676 
0,525 | 0,676 
0,525 | 0,675 
0,525 | 0,675 
0,524 | 0,674 


0,84 


0,85 


0,95 


N 

m 

x w 
ab o H wo» 


Ki 
w 
C=) 


‚645 


2,326 | 2,576 


Lesehilfe: Welcher t-Wert schneidet linksseitig von der t-Verteilung mit 17 Freiheitsgraden 95% der 
en Rand der Tabelle sucht man die Zeile mit dem Wert „17“ 
und dann in dieser Zeile die Spalte mit dem Wert „0,95“. Hier findet man den t-Wert 1,740. Da die 


Fläche ab? 


n der S 


alte „df“ am lin 


t-Verteilung mit zunehmender Anzah 


an Freiheitsgraden in eine Normalverteilung übergeht, ist am 
Fuß der Tabelle der entsprechende z-Wert wiedergegeben (vgl. Abbildung 11.5 auf Seite 265). 


Tabellen zur Flächenberechnung 


x? -Verteilung 
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Fläche (1-a) 

df 0,7 0,75 0,8 0,85 0,9 0,95 | 0,975 0,99 | 0,995 

1 1,07 1,32 1,64 2,07 2,71 3,84 5,02 6,63 7,88 

2 2,41 2,77 3,22 3,79 4,61 5,99 7,38 9,2 10,60 

3 3,66 4,11 4,64 5,32 6,25 7,81 9,35 | 11,34 12,84 

4 4,88 5,39 5,99 6,74 7,78 9,49 | 11,14 | 13,28 | 14,86 

5 6,06 6,63 7,29 8,12 9,24 | 11,07 | 12,83 | 15,09 | 16,75 

6 7,23 7,84 8,56 9,45 | 10,64 | 12,59 | 14,45 | 16,8 18,55 

7 8,38 9,04 9,80 | 10,75 | 12,02 | 14,07 | 16,01 | 18,48 | 20,28 

8 9,52 0,22 | 11,03 | 12,03 | 13,36 | 15,51 | 17,53 | 20,09 | 21,95 

9 0,66 1,39 | 12,24 13,29 | 14,68 | 16,92 | 19,02 | 21,67 | 23,59 

o 1,78 2,55 | 13,44 14,53 | 15,99 | 18,31 | 20,48 | 23,2 25,19 

1 2,90 3,70 | 14,63 | 15,77 | 17,28 | 19,68 | 21,92 | 24,73 | 26,76 

2 4,01 4,85 | 15,8 16,99 | 18,55 | 21,03 | 23,34 | 26,22 | 28,30 

3 5,12 5,98 | 16,98 | 18,20 | 19,8 22,36 | 24,74 | 27,69 | 29,82 

4 6,22 7,12 | 18,15 | 1941 | 21,06 | 23,68 | 26,12 | 29,14 31,32 

5 7,32 8,25 | 19,3 20,60 | 22,3 25,00 | 27,49 | 30,58 | 32,80 

6 8,42 9,37 | 20,47 | 21,79 | 23,54 26,30 | 28,85 | 32,00 | 34,27 

7 9,51 | 20,49 | 21,6 22,98 | 24,77 | 27,59 | 30,19 | 33,4 35,72 

8 20,60 | 21,60 | 22,76 | 24,16 | 25,99 | 28,87 | 31,53 | 34,8 37,16 

9 21,69 | 22,72 | 23,90 | 25,33 | 27,20 | 30,14 | 32,85 | 36,19 | 38,58 

20 22,77 | 23,83 | 25,04 26,50 | 28,4 31,41 | 34,17 | 37,57 | 40,00 

21 23,86 | 24,93 | 26,17 | 27,66 | 20,62 | 32,67 | 35,48 | 38,93 | 41,40 

22 24,94 | 26,04 | 27,30 | 28,82 | 30,8 33,92 | 36,78 | 40,29 | 42,80 

23 26,02 | 27,14 | 28,43 | 29,98 | 32,0 35,17 | 38,08 | 41,64 | 44,18 

24 27,10 | 28,24 | 29,55 | 31,13 | 33,20 | 36,42 | 39,36 | 42,98 | 45,56 

25 28,17 | 29,34 | 30,68 | 32,28 | 34,38 | 37,65 | 40,65 | 44,31 | 46,93 

30 33,53 | 34,80 | 36,25 | 37,99 | 40,26 | 43,77 | 46,98 | 50,89 | 53,67 

40 44,16 | 45,62 | 47,27 | 49,24 51,8 55,76 | 59,34 | 63,69 | 66,77 

50 54,72 | 56,33 | 58,16 | 60,35 | 63,17 | 67,50 | 71,42 | 76,15 | 79,49 

60 65,23 | 66,98 | 68,97 | 71,34 74,40 | 79,08 | 83,30 | 88,38 | 91,95 

70 75,69 | 77,58 | 79,71 | 82,26 | 85,53 | 90,53 | 95,02 | 100,43 | 104,21 

80 86,12 | 88,13 | 90,41 | 93,1 96,58 | 101,88 | 106,63 | 112,33 | 116,32 

90 96,52 | 98,65 | 101,05 | 103,90 | 107,57 | 113,15 | 118,14 | 124,12 | 128,30 

100 || 106,91 | 109,14 | 111,67 | 114,66 | 118,50 | 124,34 | 129,56 | 135,81 | 140,17 

150 158,58 161,29 164,35 167,96 172,58 179,58 185,80 193,21 198,36 

200 || 209,99 | 213,10 | 216,61 | 220,74 | 226,02 | 233,99 | 241,06 | 249,45 | 255,26 

500 || 516,09 | 520,95 | 526,40 | 532,80 | 540,93 | 553,13 | 563,85 | 576,49 | 585,21 

2-Wert 0,524 | 0,674 | 0,842 | 1,036 ‚282 | 1,645 | 1,960 | 2,326 | 2,576 
Lesehilfe: Die Vorgehensweise entspricht der der t-Verteilung. Der entsprechende Wert der z-Verteilung 
am Fuß der Tabelle ergibt sich erst nach Abzug der Freiheitsgrade und Division durch v2- df, da die 
x?-Verteilung mit zunehmender Anzahl an Freiheitsgraden in eine Normalverteilung mit den Parame- 


tern u = df und o? = 2 - df übergeht. Da die Annäherung sehr viel langsamer geschieht als bei der 


t-Verteilung, stimmen die Werte noch nicht sehr genau überein. 


Anhang B 


Lösungen der Übungsaufgaben 


Forschungsdesigns 


1. 


Individualdaten beziehen sich meist auf Personen, Aggregatdaten auf 
Kollektive, wobei Aggregatdaten auf der Zusammenfassung von Meß- 
werten der Mitglieder der Kollektive beruhen. 


. Schließt man aus einem bestehenden Zusammenhang zwischen Ar- 


beitslosenquote und den Stimmanteilen der Republikaner auf Wahl- 
kreisebene, dass Arbeitslose verstärkt Republikaner wählen, so begeht 
man einen Ökologischen Fehlschluss. Aufgrund der Aggregatdaten kann 
man nicht wissen, ob tatsächlich Arbeitslose die Republikaner gewählt 
haben oder z.B. vor allem Nicht-Arbeitslose in Wahlkreisen mit einer 
hohen Arbeitslosenquote zur Wahl der Republikaner tendieren. 

Mit Trenddaten lassen sich Hypothesen über Veränderungen im Ag- 
gregat (Nettoveränderungen) überprüfen. Panelstudien sind aufwän- 
diger zu erheben und bergen eigene Probleme (Panelmortalität, Re- 
präsentativität etc.). Kausale Hypothesen sind besser prüfbar, weil 
Informationen über die zeitliche Reihenfolge von Merkmalen vorhan- 
den sind. Individuelle Veränderungen können im Zeitverlauf unter- 
sucht werden. 

Die Zustimmung zu einer traditionellen Arbeitsteilung zwischen Män- 
nern und Frauen ging bei westdeutschen Befragten kontinuierlich zu- 
rück und sank zwischen 1982 und 2004 um 28 Prozentpunkte bzw. 
40%. 

Da hier die Entwicklung eines Indikators über mehrere Zeitpunkte 
betrachtet wird, handelt es sich um Längsschnittdaten. Angegeben 
sind Veränderungen im Aggregat (Nettoveränderungen). Aus diesem 
Grund handelt es sich um eine Trendstudie. Individuelle Veränderun- 
gen lassen sich mit dem ALLBUS auch nicht feststellen, da für jede 
Erhebung eine neue Stichprobe erhoben wird. Beschränkt man sich 
bei der Auswertung auf einen ALLBUS, so handelt es sich um eine 
Querschnittanalyse. 

Mit einem Experiment, wenn die Teilnehmer des Experiments den 
Versuchsbedingungen (Gruppen) zufällig zugeteilt wurden. 


U. W. Gehring, C. Weins, Grundkurs Statistik für Politologen und Soziologen, 
DOI 10.1007/978-3-531-91879-2, 
© VS Verlag für Sozialwissenschaften | GWV Fachverlage GmbH, Wiesbaden 2009 


Lösungen der Übungsaufgaben 313 


6. 


Bei den Volkszählungsdaten von 1987 handelt es sich eigentlich um 
Individualdaten. Da die Volkszählungsergebnisse jedoch nur in aggre- 
gierter Form, z.B. auf Gemeinde- oder Kreisebene, von den Statisti- 
schen Ämtern zugänglich gemacht werden, können wir sie lediglich als 
Aggregatdaten verwenden. 


Messen 


. Messen ist die strukturtreue Zuordnung von Zahlen zu Objekten. 
. Nominalskala (Gleich /Ungleich) — Ordinalskala (zusätzlich: Ordnung) 


— Intervallskala (zusätzlich: gleiche Abstände) — Ratioskala (zusätz- 
lich: gleiche Verhältnisse) — Absolutskala (zusätzlich: natürliche Maß- 
einheit). 


. nominal — ordinal — ratio — ratio — nominal — ordinal — ordinal — 


nominal - intervall. 


. Antwort (c) ist falsch. Bei Ordinalskalen kann man - im Gegensatz zu 


Intervallskalen — nicht davon ausgehen, dass die Abstände zwischen 
den einzelnen Skalenwerten gleich groß sind. 


. Die Größe des Messfehlers kann berechnet werden. 
. Vgl. dazu ausführlich Kapitel 3.3. 
. Der Reproduzierbarkeitskoeffizient und das Ergebnis der Item-Analyse 


sagen etwas über die Güte der Guttman- bzw. der Likert-Skala aus. 


. Das Messinstrument scheint sowohl reliabel als auch valide zu sein. Auf 


die Reliabilität deutet die Tatsache hin, dass verschiedene Messungen 
zu stabilen Ergebnissen führen. Wäre das Messinstrument nicht valide, 
würde es nicht mit dem bereits bewährten Messinstrument korrelieren. 


Erhebungsmethoden 


1. 


a) Diese Frage wird die meisten Befragten überfordern. Zudem ist der 
Begriff „Kosten“ nicht eindeutig (Kosten des Studierenden oder der 
Hochschule?). 

b) Hier handelt es sich um eine mehrdimensionale Frage; man könnte 
beispielsweise durchaus für eine Straffung des Studiums und ge- 
gen die Einführung von Studiengebühren sein. Aus diesem Grunde 
sind hier zwei Fragen angebracht. Eventuell könnte man eine „weiß 
nicht“-Kategorie einführen. 
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c) Die Antwortkategorien überlappen sich („mehr als einmal wöchent- 
lich“ beinhaltet „zwei- bis dreimal wöchentlich“ und „täglich“) 

d) Bei dieser Frage sind die Antwortkategorien alles andere als er- 
schöpfend. Wichtige Antwortmöglichkeiten (z.B. Interesse am 
Fach) fehlen. Hier bietet sich eine Hybridfrage an. 

e) Aufgrund der doppelten Verneinung ist kaum klar, welche inhalt- 
liche Bedeutung mit der Zustimmung bzw. Ablehnung der Frage 
verbunden ist. Die „weiß nicht“-Kategorie sollte nicht die Mittelpo- 
sition bei den Antwortkategorien einnehmen. Kreuzt ein Befragter 
hier „weiß nicht“ an, so kann man sich nicht sicher sein, ob er tat- 
sächlich keine Meinung hat oder z.B. der Meinung ist, dass der 
ASTA teilweise die Meinung der Studierenden vertritt. 

f) Diese Frage ist eindeutig zu lang und vor allem unnötig kompliziert 
formuliert. 

g) Hier stimmt alles. 


Bei der vorliegenden Anordnung der Fragen könnte es zudem passie- 
ren, dass die Frage nach der Höhe der Ausbildungskosten die Beant- 
wortung der darauffolgenden Frage — Einführung von Studiengebühren 
— beeinflusst. 


. Geschlossene Fragen bieten sich an, wenn die Antwortmöglichkeiten 


bekannt und/oder begrenzt sind, z. B. beim Geschlecht (Mann - Frau). 
Offene Fragen bieten sich an, wenn man noch nicht weiß, welche Ant- 
worten kommen könnten, wenn die Antwortmöglichkeiten zu zahlreich 
wären oder wenn man prinzipiell dem Befragten die Gelegenheit geben 
möchte, ausführlicher oder in seinen eigenen Worten zu antworten. 


Tabellen und Graphiken 


1. 


In der Regel werden die Stimmanteile der Parteien auf die gültigen 
Stimmen prozentuiert, da dieser Anteil über die Sitzverteilung im Par- 
lament entscheidet. 


. Der Anteil der Stimmen für die NSDAP stieg um 103,5% Prozent 


(FE) bzw. 18,97 Prozentpunkte. 


. Ein Kreis-, Säulen- oder Balkendiagramm, da es sich um ein nominal- 


skaliertes Merkmal handelt. 


. Ostdeutsche Befragte haben insgesamt positivere Erwartungen bezüg- 


lich der eigenen wirtschaftlichen Lage in einem Jahr als westdeutsche 
Befragte (vgl. die Tabelle auf Seite 316). 
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Wahlergebnis (a) (b) 
Wahlberechtigte 42.957.675 =100% 
Abgegebene Stimmen 35.225.758 
Wahlbeteiligung 82% 
Ungültige Stimmen 254.901 
% Ungült. Stimmen 0,72% 
Gültige Stimmen 34.970.857 =100 % 
KPD 4.592.090 13,13% 10,69% 
USPD 11.902 0,03% 0,03% 
SPD 8.577.738 24,53% 19,97% 
DDP 1.322.385 3,78% 3,08% 
Zentrum 4.127.910 11,80 % 9,61% 
BVP 1.059.141 3,03% 2,47% 
DVP 1.659.774 4,75% 3,86 % 
DNVP 2.458.246 7.03% 5,72% 
NSDAP 6.409.610 18,33% 14,92 % 
Sonstige 4.752.061 13,59% 11,06 % 


Unter den Befragten, die ihre eigene wirtschaftliche Lage in einem 
Jahr als wesentlich besser einschätzen, sind Ostdeutsche deutlich über- 
repräsentiert (36,7%, im Vergleich zu 32% ostdeutschen Befragten 
insgesamt), während Westdeutsche unterrepräsentiert sind (63,3% zu 
68% insgesamt). Gleiches gilt für die Kategorie „etwas besser“. Aller- 
dings sind Ostdeutsche in der Kategorie „wesentlich schlechter“ eben- 
falls deutlich überrepräsentiert, während die westdeutschen Befragten 
überproportional häufig die Kategorie „etwas schlechter“ angaben. 
Von allen Ostdeutschen haben 25,6% positive Erwartungen an die 
Entwicklung ihrer wirtschaftlichen Lage, während es bei den West- 
deutschen lediglich 16,9% sind — wenn die Kategorien „wesentlich bes- 
ser“ und „etwas besser“ zusammengefasst werden. 


Lage- und Streuungsparameter 


1. 


Die Verteilung hat zwei Modalwerte: zu. = 100 und £mo = 110; 
z = 105:7 = 105,1; V = 90; sl = 546,09; s = 23,37 


. In Land B sind die Einkommensunterschiede erheblich geringer aus- 


geprägt, da die Standardabweichung, also die Streuung der Werte, 
geringer ist als in Land A. 


. Tue = 21, mo = 22%; t = 22; I = 22,75; V = 10; s? = 4,05; s = 2,01 
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Zeilenprozente 
Spaltenprozente West Ost Summe 
Totalprozente 
63,3 36,7 100, 
wesentlich besser Le 2,0 1,8 
1,1 0,7 1,8 
57,8 42,2 100, 
etwas besser 15,2 23,6 17,9 
10,3 7,5 17,9 
70,6 29,4 100, 
gleichbleibend 69,3 61,4 66,8 
47,2 19,6 66,8 
71,1 28,9 100, 
etwas schlechter 12,8 11,0 12,2 
0,7 0,6 1,3 
52,3 47,7 100, 
wesentlich schlechter 1,0 1,9 1,3 
0,7 0,6 1,3 
68,0 32,0 100, 
Summe 100,0 100,0 100, 
68,0 32,0 100, 


Die Verteilung hat zwei Modalwerte, nämlich 21 und 22 Jahre. Die 
Hälfte der Kursteilnehmer hat das 22. Lebensjahr bereits erreicht und 
im Durchschnitt sind die Teilnehmer 22,75 Jahre alt. 

Der älteste und der jüngste Kursteilnehmer liegen 10 Jahre auseinan- 
der. Die Streuung der Werte liegt bei 2,01 Jahren. 


. Da der Modalwert größer als das arithmetische Mittel ist, handelt es 


sich um eine rechtssteile (linksschiefe) Verteilung. 


. Angemessen sind in diesem Fall Modalwert und Median, da es sich 


bei Klausurnoten um eine ordinalskalierte Variable handelt. Dagegen 
ist die Berechnung des arithmetischen Mittels für Klausurnoten im 
strengen Sinne nicht zulässig, da die Abstände zwischen den einzelnen 
Noten nicht gleich sind und damit kein Intervallskalenniveau vorliegt. 


. Das arithmetische Mittel würde bei einer linkssteilen Verteilung von 


„Ausreißern“ nach oben verzerrt werden. Gibt es also einige sehr hohe 
Mieten, ist das arithmetische Mittel größer als der Median. 


Zusammenhangsmaße 


1. 


e Berechnung der Prozentwerte: 
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ST | Kath. kath. | Summe 
ovos | mo W| 
. Ge | S 
ANDERE > rn ni 
um Lë SI 


Von den Befragten, die eine Präferenz für CDU/CSU äußerten, 
sind 55,7% katholisch und 44,3% nicht-katholisch. Im Vergleich 
zu allen Befragten (43,2% Katholiken), sind Katholiken unter den 
CDU/CSU-Wählern also überrepräsentiert. 
43,6% aller Katholiken geben an, CDU/CSU wählen zu wollen, 
während von allen Befragten lediglich 33,8 % eine Präferenz für 
die Unionsparteien äußern. 

e Berechnung von x?, C, Cramers V 

> _ (236 — 302,54)? (297 — 230,46)? _ (390 — 337,73)? 


X 


302,54 230,46 337,73 
(205 — 257,27)? , 268- 253,73)? yue- 193,27)? 
257,27 253,73 193,27 
= 54,41 
54,41 J=] 
C =| —— — = 0,183; Cmar = lz = 0,707 
54,41 + 1575 2 i 


54,41 


1575.(@-1) 186 


Cramers V = 


Zwischen der Konfession und der Wahlabsicht besteht ein schwa- 
cher Zusammenhang. 
e Berechnung von A 
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Vorhersage der Wahlabsicht durch die Konfession: 


(533 + 447) — (236 + 268 + 205 + 179) 
(533 + 447) 


à= 


980 — 888 
= — = 0,0939 = 9,39% 
980 ` 3% 
Durch die Kenntnis der Konfession lassen sich die Fehler bei Vor- 
hersage der Wahlabsicht um 9,39 % verringern. Auch X deutet also 


auf einen schwachen Zusammenhang hin. 
2. y, da es sich um zwei ordinalskalierte Merkmale handelt. 
1228543 — 932805 
1228543 + 932805 


295738 


2161348 


= 0,1368 = 13,68% 


Durch die Kenntnis der Schulbildung der Interviewer lassen sich die 
Fehler bei Prognose der Schulbildung der Befragten um knapp 14% 
verringern. Es existiert also tatsächlich ein schwacher Zusammenhang 
zwischen der Schulbildung der Interviewer und der Schulbildung der 
Interviewten. 

3. 7? bzw. n, da die unabhängige Variable (Geschlecht) nominalskaliert 
und die abhängige (Alter der Befragten) intervallskaliert ist. 
Der „Trick“ zur Lösung der Aufgabe besteht darin, die Summe der 
Abweichungsquadrate aus der Varianz und der Fallzahl zu ermitteln 
(vgl. Formel 6.8 auf Seite 135): 


SA ges = = ` Nges = 286,1653 - 3442 = 984980,9626 
SAQrkat = Ski ` Tan + Skato ` NKatz 


= (282,8915 - 2320) + (293,0079 - 1121) = 984770,1359 


, 984980,9626 — 984770,1359 
1 = 984980.9626 


n = „/0,0002 = 0,014 


Ein Zusammenhang zwischen dem Geschlecht des Interviewers und 
dem Alter des Befragten besteht nicht. 


= 0,0002 = 0,02% 
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4. Berechnung von Pearsons r: 


i| zi yi | -2|u-37 | (zi -Hu-9 | (i-z) | (yi -7)? 
1 15 1 —6,2 —2,2 13,64 38,44 4,84 
2| 30| 7| 88 | 38 33,44 77,44 | 14,44 
3 20 2 —1,2 —1,2 1,44 1,44 1,44 
4 24 4 2,8 0,8 2,24 7,84 0,64 
5 17 2 —4,2 —1,2 5,04 17,64 1,44 

ge y= SAP = SAQr SAQy 
21,2 | 3,2 55,8 142,8 22,8 
E 
r= 55,8 = 0,98 


J112.8. 22,8 


Zwischen der Zahl der täglich verzehrten Eis und der Außentempera- 
tur besteht ein fast perfekter Zusammenhang. 
5. a) richtig, b) falsch 


Lineare Regression 


1. Mit einer linearen Regression kann der Einfluss einer (oder mehre- 
rer) unabhängiger Variablen auf eine metrische abhängige Variable 
bestimmt werden. 

2. a) Bestimmung der Regressionsgleichung (vgl. zur Berechnung die 

Arbeitstabellen auf S. 327 und 328): 


SAP —910,59 


b geg, = 
SAQ, 6136,70 


= —0,1484 


a = J — b- Z = 39,21 — (—0,1484 - 54,99) = 47,37 
Die Regressionsgleichung lautet also: 
ĝi = 47,37 — 0,1484 - T; 


Je höher der Prozentanteil der Katholiken in einem Wahlkreis, 
umso schlechter schneidet die SPD ab (negatives Vorzeichen des 
Regressionskoeffizienten). Es handelt sich also um eine negative 
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Beziehung. Nimmt der Anteil der Katholiken in einem Wahlkreis 
um einen Prozentpunkt zu, dann verlieren die Sozialdemokraten 
rund 0,1484 Prozentpunkte. In einem (hypothetischen) Wahlkreis 
ohne Katholiken würde die SPD 47,37 Prozent der gültigen Stim- 
men erhalten. 

Berechnung des Determinationskoeffizienten R?: 


5. Erklärte-SAQ,, 135,53 
© Gesamt-SAQ, 269,20 


Die unterschiedlichen Wahlerfolge der SPD in den rheinland- 
pfälzischen Wahlkreisen bei der Bundestagswahl 1994 lassen sich 
zu 50% durch den Katholikenanteil erklären. (Obwohl dies immer 
noch ein relativ hohes R? ist, liegt der Wert deutlich niedriger als 
bei Schätzung des CDU-Anteils. Zur Erklärung der Wahlergebnis- 
se der SPD ist der Katholikenanteil also ein schlechterer Prädiktor 
als zur Erklärung der CDU-Ergebnisse.) 
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Berechnung des Determinationskoeffizienten 
Wahlkreis ù | wmi- | m- 0-0] -yy 
Neuwied 39,12 1,84 3,38 —0,09 0,01 
Ahrweiler 35,19 —1,02 1,04 —4,02 16,16 
Koblenz 36,51 1,42 2,02 —2,70 7,29 
Cochem 36,86 —4,02 16,16 —2,35 5,52 
Kreuznach 42,53 1,48 2,19 3,32 11,02 
Bitburg 33,79 —1,07 1,14 —5,42 29,38 
Trier 34,30 5,30 28,09 —4,91 24,11 
Montabaur 39,83 2,38 5,66 0,62 0,38 
Mainz 39,74 —3,19 10,18 0,53 0,28 
Worms 42,50 —0,08 0,01 3,29 10,82 
Frankenthal 42,62 0,54 0,29 3,41 11,63 
Ludwigshafen 41,73 —0,90 0,81 2,52 6,35 
Neustadt-Speyer | 40,60 —6,01 36,12 1,39 1,93 
Kaiserslautern 42,19 4,51 20,34 2,98 8,88 
Pirmasens 40,54 1,12 1,25 1,33 1,77 
Südpfalz 39,19 — 2,26 5,11 —0,02 0,00 
U. SAQ, E. SAQ, = 
133,79 135,53 
3. e Berechnung aus den Einzelmesswerten: 
e SAP 910,59 a 


e Berechnung aus RP: 


Il = /0,50 = 0,71 


Die Richtung des Zusammenhangs (das Vorzeichen von r!) muss 
bei der Berechnung aus R? dem Regressionskoeffizienten entnom- 


men werden. 


Stichprobenverfahren 


0. SAQ, 86136,70:200,0 


1. Stichproben sind erheblich schneller und kostengünstiger durchführbar 
als Vollerhebungen, schwanken allerdings in ihrer Zusammensetzung 
zufällig und erlauben daher Schlüsse auf die Grundgesamtheitnur mit 
einer bestimmten Wahrscheinlichkeit. 


2. Mehrstufiges Auswahlverfahren 
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3. 


e Begriffe: 
Grundgesamtheit = alle Mainzer Studierende 
Auswahlgesamtheit = alle auf der Liste des Studentensekretariates 
verzeichneten Studierenden 
undercoverage = Studierende, die sich nach Abfassung der Liste 
immatrikuliert haben 
overcoverage = zwischenzeitlich exmatrikulierte Studierende 
e Vorgehensweise: 
Einfache, systematische Zufallsstichprobe, d.h. zufällige Auswahl 
des ersten Studierenden, alle weiteren werden in einem bestimm- 
ten Intervall ermittelt. Das Stichprobenintervall beträgt Z = 
28,734. Die zu bestimmende Zufallszahl muß also zwischen 1 und 
28 liegen (dann erhält man etwas mehr als 1.000 Studierende). 
Würde die zufällig gezogene erste Zahl 5 lauten, dann würde der 
5., der 33., der 61. Studierende usw. in die Stichprobe gelangen. 


4. Zufallsgesteuerte Verfahren bieten die Gewähr, dass jedes Element der 


Grundgesamtheit (genauer: der Auswahlgesamtheit) die gleiche bzw. 
eine bekannte Wahrscheinlichkeit größer null hat, in die Stichprobe 
zu gelangen. Erst dadurch werden Schlüsse auf die Grundgesamtheit 
möglich. 


Wahrscheinlichkeitsverteilungen 
1. Die z-Tabelle findet sich in Anhang A. 


z-Wert -2,78  -0,10 0,90 1,96 


Fläche links | 0,0027 0,4602 0,8159 0,9750 
Fläche rechts | 0,9973 0,5398 0,1841 0,0250 


2. Gesucht: Anteil der z-Werte zwischen —2 und 2: 


P(—2 < z < 2) =- 
= 0,9772 — 0,0228 
= 0,9544 = 95,44% 


3. Durch Mittelwert und Varianz. 
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4. Zunächst müssen hier die beiden x-Werte 20 und 23 z-transformiert 
werden. Aus der z-Tabelle kann dann die Fläche zwischen den beiden 
z-transformierten Werten entnommen werden. 

Gesucht: Größe der Fläche, die zwischen 20 und 23 liegt: 


<Z< 
4 zz 4 


=P(<Z< 0,75) 
= un — © 

= 0,7734 - 05 

= 0,2734 = 27,34% 


20-2 3-3 
pw<x<m-r(® z S " 


5. Mit wachsendem Stichprobenumfang n nähert sich die Verteilung von 
Stichprobenmittelwerten einer Normalverteilung an. 

6. Lösungsweg analog zu Aufgabe 4. Da es sich um eine Stichpro- 
benmittelwerteverteilung handelt, muss hier Gleichung 10.21 zur z- 
Transformation herangezogen werden. 

Gesucht: Prozentsatz der Stichprobenmittelwerte £, der zwischen 36,9 
und 38,9 Jahren liegt: 


<Z< 
0,7 =Z > 0,7 


= P (—1,43 < Z < 1,43) 
= 143 — ®_1a 

= 0,9236 — 0,0764 

= 0,8472 = 84,72 % 


= 36,9 — 37,9 38,9 — 37,9 
P (36,9 < X < 38,9) = P Den m 


7. a) falsch, b) falsch, c) falch, d) richtig 


Konfidenzintervalle 


1. Konfidenzintervalle sind Bereiche, die den gesuchten Parameter der 
Grundgesamtheit mit einer gewissen Wahrscheinlichkeit überdecken. 
2. e Das Konfidenzintervall wird größer. 
e Das Konfidenzintervall wird größer. 
e Das Konfidenzintervall wird kleiner. 
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3. Die Varianz der Grundgesamtheit ist unbekannt und wird durch die 
Stichprobendaten geschätzt. Da die Stichprobe sehr groß ist, werden 
die Grenzen anhand einer z-Tabelle und nicht anhand einer t-Tabelle 
abgelesen. 

Die allgemeine Formel lautet daher: 


2 ĉ _ o 
STEET 
Berechnung des zweiseitigen Konfidenzintervalls bei o = 0,05: 
1477,68 1477,68 
1838,39 zu ue << 1838,39 + zq _ 295): eg 
2 v1474 2 v1474 


1838,39 — 1,96 - 38,49 < u < 1838,39 + 1,96 - 38,49 
1762,95 < u < 1913,83 


4. e 99%iges Konfidenzintervall für den Anteil der CDU/CSU-Wäller: 


0,425 : 0,575 0.425 - 0,575 
0,425 — 2.00, TS 9 < OA + zu, y 


0,425 — 2,58: 0,014 < 8 < 0,425 + 2,58 : 0,014 
0,389 < 0 < 0,461 


e 99 %iges Konfidenzintervall für die PDS: 


0,035 - 0,965 0,035 - 0,965 
=9 ral D a9 ar Aue u 
0,035 — 2,58 - 4/ En 0,035 + 2,58 E 


0,035 — 2,58 - 0,00519 < 0 < 0,035 + 2,58 - 0,00519 
0,02158 < 0 < 0,0484 


5. Das Konfidenzintervall soll eine Breite von 1% aufweisen (KIB=0,01); 
der Prozentsatz der FDP betrug in der Stichprobe der Forschungsgrup- 
pe Wahlen p=0,07; o soll 5% betragen. 


4- 1,962- 0,07 (1 0,07) 
n = ———— — — — 


=1 
TOE 0003,5 
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Hypothesenprüfung 


1. Mit Testverfahren wird anhand zufällig gezogener Stichproben über- 
prüft, inwieweit Hypothesen über eine Grundgesamtheit zutreffend 
sind. 

2. a) Test eines Mittelwertes bei unbekanntem o. 

e Null- und Alternativhypothese festlegen: 
H: p= pm =52 und Ha: > m > 52 Wochen, 
a = 0,05. 

e Prüfgröße und Verteilung der Prüfgröße bestimmen: 
Die Stichprobe ist hinreichend groß (n = 144). Da o durch die 
Stichprobe geschätzt werden muss (5), ist die Prüfgröße mit 
df = n — 1 = 143 Freiheitsgraden t-verteilt. 

e Ablehnungsbereich der Nullhypothese festlegen: 
Weil die Alternativhypothese gerichtet ist und größere Wer- 
te postuliert, liegt der gesamte Ablehnungsbereich am rech- 
ten Rand der t-Verteilung. Der kritische t-Wert befindet sich 
daher an der Stelle tar ı-a). Den kritischen t-Wert entneh- 
men wir der t-Verteilung mit 150 Freiheitsgraden (da keine 
Verteilung mit 143 Freiheitsgraden im Anhang tabelliert ist): 
tas0,1-0,05) = 1, 655. Ist der Wert der Prüfgröße größer als 1,655, 
dann wird die Nullhypothese verworfen; ist der Wert kleiner als 
1,655, dann wird die Nullhypothese nicht verworfen. 

e Prüfgröße berechnen und über die Nullhypothese entscheiden: 


_ 67,6— 52 


E 61,5 
v144 


Da 3,044 größer als 1,655 ist, wird die Nullhypothese abge- 
lehnt. Der Unterschied ist statistisch signifikant. 


= 3,044 


b) Konfidenzintervall (für u bei unbekanntem o) berechnen: 


61,5 61,5 
SETZE E 
Aa 144 


57,7 < p < 77,7 


3. a) Test einer Mittelwertedifferenz bei unabhängigen Stichproben: 
e Null- und Alternativhypothese festlegen: 
Ho: m= und Ha: FM, a= 0,01. 
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b) 


e Prüfgröße und Verteilung der Prüfgröße bestimmen: 
Die Stichproben sind hinreichend groß. Die Prüfgröße ist hier 
z-verteilt (vgl. die Anmerkungen in Kapitel 12 zu t-Tests). 

e Ablehnungsbereich der Nullhypothese bestimmen: 
Für den zweiseitigen Ablehnungsbereich entnimmt man für 
a = 0,01 der z-Tabelle an den Stellen 29,01/2 und 21_0,01/2 die 
kritischen Werte —2,58 und 2,58. Die Nullhypothese wird also 
abgelehnt, wenn in der Stichprobe ein z-Wert kleiner als —2, 58 
oder größer als 2,58 ermittelt wird. 

e Prüfgröße berechnen und über die Nullhypothese entscheiden: 


5,06 — 5,25 

IN IE, = 2,59 
1,582 |, 1,742 
"oer + ver 


Da der in der Stichprobe ermittelte z-Wert —2,59 kleiner als 
der kritische z-Wert —2, 58 ist (wenn auch sehr knapp), wird die 
Nullhypothese abgelehnt. Der Unterschied in der ideologischen 
Einstellung von Männern und Frauen ist also statistisch sehr 
signifikant. 


Konfidenzintervall für eine Mittelwertedifferenz: 
Die Differenz beträgt in den Stichproben zı — zə = 5, 06 — 5,25 = 
—0, 19; das Konfidenzintervall berechnet sich nach: 


1,58? Mn 1,742 
1083 987 


—0, 19 + 2,58- 
Daraus resultiert: 
—0, 3791 < uı — u2 < —0, 0009 


Die obere Grenze des 99%igen Konfidenzintervalls ist ganz nah am 
Wert der Wert der Nullhypothese! 

Zur Berechnung von n wird die Summe der Abweichungsquadrate 
für Männer und Frauen (= SAQges) und die Summe der Abwei- 
chungsquadrate für Männer und Frauen getrennt benötigt. 

Da 6 = /SAQ/n — 1 ist, ist SAQ = ô? - (n — 1): 

SAQ ges = 1,66? - 2069 = 5701, 3364 

SAdrrauen = 1, 58? - 1082 = 2701, 1048 

SAQMänner = 1, 74? - 986 = 2985, 2136 

SAQrat = SAQ frauen + SAQMänner = 5686, 3184 
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o _ SAQges — HA __ 5701, 3364 — 5686, 3184 


= = 0, 0026 
SAQges 5701, 3364 ` 


n = yn = v0,0026 = 0,05 


Der Zusammenhang zwischen beiden Merkmalen ist zu vernach- 
lässigen! 
4. e Null- und Alternativhypothese festlegen: 

Ho: Es gibt keinen Unterschied im Wahlverhalten zwischen Ka- 
tholiken und Nicht-Katholiken. 
Ha: Die Konfession hat einen Einfluss auf das Wahlverhalten. 
a = 0,05 

e Prüfgröße und Verteilung der Prüfgröße festlegen: 
Die Prüfgröße x? berechnet sich nach Gleichung 7.8 und ist mit 
df = (3 — 1)(2 — 1) = 2 Freiheitsgraden x?-verteilt. 

e Ablehnungsbereich der Nullhypothese kennzeichnen: 
Der kritische Wert für ein Signifikanzniveau von 0,05 liegt in einer 
Verteilung mit zwei Freiheitsgraden bei Vi = 5,99 (Anhang A 
entnehmen!). 


vie E => Ho nicht ablehnen 
x > Kë => Ho ablehnen 


e Berechnung der Prüfgröße x?: 
Alle erwarteten Werte sind größer als 5, d.h. der Test darf ange- 
wendet werden. Vgl. die Berechnung auf S. 317. 
x = 54,41 

e Entscheidung über die Nullhypothese: 
Da der gemessene x?-Wert 54,41 größer als der kritische x?-Wert 
5,99 ist, wird die Nullhypothese verworfen. 


5. a) Ho ablehnen, da p < 0,05. a-Fehler, b) Ho nicht ablehnen, da 
p > 0,01. Fehler 
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